파이썬 AI 실습/메타의 라마(llama) 파인튜닝(전문가GPT) 하기

메타의 라마(llama) 파인튜닝(전문가GPT) 하기 - 3. colab에서 모델 튜닝 및 다운로드하기

파기차차 2024. 8. 18. 16:26
728x90
반응형
SMALL

ㅁ 개요

 

O 프로젝트 소개

 

 

 - 이번 글은 이전글(메타의 라마(llama) 파인튜닝(전문가GPT) 하기 - 2.허깅페이스 준비하기)에 이은 4번째 글로 구글 colab에서 기본모델에 기능을 추가하는 형태의 튜닝하는 방법 및 튜닝한 파일을 구글 클라우드 서버 -> 로컬PC로 다운로드 하는 방법을 알아보겠습니다.

 

 

 


 

O 주요 내용

 

 

 

 

1. 모델 로드에 필요한 모듈을 설치해 줍니다.

 

 

 

2.간단한 데이터(데이터셋)를 준비합니다.

 

3.데이터를 로드합니다.

 

4.허깅페이스에 로그인 합니다.

 

 

5.라마2 모델을 로드하고 미세조정에 필요한 모듈(peft)을 설치합니다.

 

 

 

 

6.모멜을 미세 조정해 줍니다.

 

7.미세조정된 모델을 서버(구글 클라우드 서벗)에 저장합니다.

 

 

8.서버에 튜닝(미세조정)된 모델이 잘 만들어 졌는지 확인합니다.

아래의 경우 'fine_tuned_llama' 디렉토리가 생겼고, 그 아래 총 13개의 파일이 만들어졌습니다.

 

 

9. 아래와 같은 코드로 현재 디렉토리의 모든 파일을 zip으로 압축 후 다운로드 합니다.

주의!!! 하지만, 다운로드시 파일이 너무 커서(약 30GB) 엄청난 시간이 소요됩니다. 구글colab에서는 무료사용자가 TPU를사용할 수 있는 시간은 매우 제한적(대략 2~3시간)이므로 다운로드 전에 세션이 리프레시 되어 버리게 됩니다.

따라서 아래는 구글 유료사용자만 추천하는 방법입니다.

 

10.다른 방법으로 아래와 같이 파일 사이즈가 작은 파일들(6개)만 미리 받아 둡니다.

 

 

11. 그리고 나서 아래와 같이 하면 될 줄 알았으나, 이 역시 동시에 받기때문에 시간이 엄청 걸리므로 이렇게 하시면 안됩니다. ㅠㅠ

 

12. 차라리 아래와 같이 나의 구글드라이브 연결(마운트) 후 구글 드라이브의 용량을 모니터링 하면서 모델 6조각 중 1조각(4.5GB)씩 업로드 합니다.

구글 업로드된 조각 모델을 내PC로 다운로드 후 구글드라이브의 해당 조각 모델을 삭제합니다. 이렇게 계속 총 6조각을 다운로드 하시면 로컬로 가져오는 것이 가능합니다.

 

**참고로 구글드라이브는 총 15GB가 무료이므로 비어있다면 파일 3개까지 구글 드라이브로 업로드 가능합니다.

 

 

13. 아래는 나의 구글드라이브로 서버내 모델 조각 파일들이 잘 업로드 되었는지 확인하는 명령입니다.

아래의 경우 모델 조각 파일 1,2,3번이  잘 업로드 된 것을 볼 수 있습니다.

 

14.아래는 나의 구글드라이브의 조각 모델 파일들을 하나씩 로컬 PC로 다운로드 한 모습입니다.

 

 

 


 

ㅁ 정리

 

O 우리가 배운 내용

 
 - 오늘은 구글 colab에서 기본모델에 기능을 추가하는 형태의 튜닝하는 방법 및 튜닝한 파일을 로컬 PC로 다운로드 하는 방법에 대해 알아보았습니다.

 

 

 

 

오늘은 여기까지이며, 위의 내용이 유익하셨다면, 광고 한번씩만 클릭 부탁드립니다.

 

 

감사합니다.

728x90
반응형
LIST