파이썬 AI 실습/Gemini AI & Vertext AI API 사용 하기

Gemini AI & Vertext AI API 사용 하기 - 0.소개편

파기차차 2023. 12. 25. 12:41
728x90
반응형
SMALL

 

좋은 내용의 글들이 계속 올려질 수 있도록 "공감" 버튼을 꾹 눌러주세요.

 

 

ㅁ 개요

 

O 프로그램 소개

 

 - 이번 프로그램은 최근 발표한 구글의 범용 머신러닝플랫폼인 Vertex AI와 텍스트 처리에 특화된 제미나이 AI API를 이용하는 방법에 대하여 살펴보겠습니다.

 

이번편은 가장 기본적인 내용이지만, 가장 중요하다고도 할 수 있습니다. 이부분을 반복해서 단단하게 내것으로 만든다면 어떠한 응용 가능할 것으로 생각됩니다.

 

API를 제공한다는 것은 이를 활용하여 다양한 분야에 응용이 가능하다는 의미로, 이번 편 이후에는 이를 응용하여 보다 혁신적인 AI 프로그램을 만들어 보도록 하겠습니다.

 

 

 

O 향후 진행 순서

 

이후 글부터 진행되는 세부적인 내용은 다음과 같습니다.

 

 

1.API를 사용하기 위한 환경설정하기

 -구글의 제미나이 AI 및 Vertext AI API를 사용하기 위한 사전 환경설정 방법에 대해 알아보겠습니다.

 

 

2.기본 사용법 알아보기

-머신러닝 API를 사용하기 위한 모델에는 크게 2가지가 존재합니다. 주로 텍스트 처리에 사용되는 gemini-pro와 멀티모달(이미지, 동영상 등 다양한 입력 방법)에 사용되는 gemini-pro-vision에 대해 간략한 사용법에 대해 알아보겠습니다.

 

3.이미지속 텍스트 추출하기(image to text)

-3~9번까지는 거의 유사한 내용으로 프롬프트를 어떻게 처리하는지에 따라 다른 결과를 얻어낼 수 있습니다. 먼저 이미지속의 텍스트를 추출해 내는 방법에 대해 설명합니다.

 

4.이미지와 설명을 주고, 특정 이미지를 이와 동일하게 설명하기

-1번 이미지에 대한 이름과 설명을 보여주고, 2번 이미지를 1번과 유사하게 설명할 수 있도록 하는 방법에 대해 알아봅니다.

 

5.이미지속 특정 객체의 가격 알아 맞추기

-이미지속의 여러 객체 중 특정 객체의 가격을 맞추는 방법에 대해 설명합니다.

 

6.이미지를 이해하고, 이미지속 객체를 json형태로 추출하기

-전체적인 이미지를 이해하고, 이를 프로그램에서 사용할 수 있도록 json형태로 추출하는 방법에 대하여 알아보겠습니다.

 

7.이미지를 보고 스토리라인 만들기

-단순 이미지를 보고, 이에 영감을 받아 스스로 스토리라인을 작성해 내는 프롬프트를 만들어 보겠습니다.

 

8.전체 이미지 내용을 보고 특정 객체 찾아내기

-5번과 유사하며, 이미지 속 여러 객체들 중에서 특정 객체를 찾아내는 프롬프트 예시를 살펴보겠습니다.

 

9.이미지속 객체의 크기 예상하기

-이미지속 객체를 보고 각 객체들의 크기를 예상하는 프롬프트 예시를 살펴보겠습니다.

 

10.영상의 내용을 보고 어떤 영상인지 설명하기

-특정 영상을 주고, 이 영상이 어떤 영상인지 설명하도록 하는 방법에 대해 살펴보겠습니다.

 

 

 

 

O 완성된 프로그램 실행 화면

 - 최종 완성된 프로그램의 결과화면은 아래와 같습니다.

위의 내용이 많으므로 대표적인 기능 몇가지만 살펴보고 자세한 내용은 이후 글에서 설명드리겠습니다.

 

 

 

1.아래는 " 2.기본 사용법 알아보기 "에서 작성한 코드를 실행한 결과 입니다.

여기서는 단순히 제미나이에게 "너 누구니?"라고 물어보았고 이에 "저는 구글에서 개발한 대형 언어 모델입니다." 라고 응답한 결과를 보여주고 있습니다.

 

 

 

 

 

 2.아래는 " 3.이미지속 텍스트 추출하기(image to text)"에서 작성한 코드를 실행한 결과 입니다.

프롬프트(입력값)로 이미지(아래 그림)를 주고 "이미지 속 텍스트를 읽어라"라고 명령하였으며,

 

 

 아래와 같이 결과로 제미나이가

"The best dreams happen when you are awake." 이와 같이 이미지속 텍스트를 잘 뽑아준 것을 볼 수 있습니다.

 

 

 

 3.아래는 " 10.영상의 내용을 보고 어떤 영상인지 설명하기 "에서 작성한 코드를 실행한 결과 입니다.

 프롬프트(입력값)로 동영상 URL(구글 클라우드 스토리지 형식의 주소를 사용해야 함, "gs://~~~~")을 주고,

"이 영상이 어떤 영상이야?"라고 명령하였으며,

 

 

gs://cloud-samples-data/video/animals.mp4

 

아래와 같이 위 영상에 대한 설명을 잘 받아온 것을 확인할 수 있습니다.

 

 

 

 

이후 글부터 위의 '향후 진행 순서'에서 말씀 드린 내용대로 하나씩 자세해 설명 드리겠습니다.

 

 

 

 

감사합니다.

 

좋은 내용의 글들이 계속 올려질 수 있도록 "공감" 버튼을 꾹 눌러주세요.

 

 


 

 

728x90
반응형
LIST