파이썬 AI 실습/Gemini AI & Vertext AI API 사용 하기

Gemini AI & Vertext AI API 사용 하기 - 6.이미지를 이해하고, 이미지속 객체를 json형태로 추출하기

파기차차 2024. 1. 4. 22:38
728x90
반응형
SMALL

좋은 내용의 글들이 계속 올려질 수 있도록 "공감" 버튼을 꾹 눌러주세요.

 

 

 

ㅁ 개요

 

O 프로그램 소개

 

- 이번 글은 이전글(2023.12.25 - [분류 전체보기] - Gemini AI & Vertext AI API 사용 하기 - 5.이미지속 특정 객체의 가격 알아 맞추기)에 이은 6번째 글로 이미지의 전반적인 내용을 구조화하고, 이를 프로그램에서 사용할 수 있도록 json형태로 추출하는 방법(프롬프트)에 대하여 알아보겠습니다.

 

 

 

 

 

O 준비 사항

 -프로그램이 정상적으로 실행되기 위해서는 아래 이미지가 필요합니다.

아래 이미지파일을 다운로드하여 img폴더 아래에 위치시켜 주시기 바랍니다.

 

 

fish.png
0.56MB

 

 

 

O 완성된 프로그램 실행 화면

 

 

 - 본 포스팅의 최종 완성된 프로그램의 결과화면은 아래와 같습니다.

 

1.프로그램을 실행하면 아래와 같이 동작 합니다.

 

먼저 gemini-pro-vision 모델에 의해 이미지 1장이 로드됩니다.

 

-이미지의 내용은 수산물별 가격표가 붙어 있는 이미지 입니다.

 


 

 

 

 

2. 아래와 같이 제미나이에게 프롬프트(질의)를 하였더니

Extract the items and prices from a fish market photo and output them in JSON : 수산시장 사진에서 품목과 가격을 추출하여 JSON으로 출력해줘

제미나이가 이미지속 수산물별로 구분하여 수산물의 이름/가격을 json 형태로 만들어 주었습니다. 

 

 

 

 

3.아래는 위와 내용은 동일하며, 한글로 요청한 것인데,

 

 

 

 

 4. 이것도 잘 답변해 주고 있는 것을 볼 수 있습니다.

다만, 위에서는 딕셔너리형태로 출력한 반면, 아래 한글의 경우 리스트 형태로 출력해 준것이 다소 차이가 있습니다.

 

 

 

 

 

 

 

 

 


 
 

 

O 주요 내용

 

1. 소스코드를 살펴보면 다음과 같습니다.

 

이전글의 소스와 동일하며 하단의 프롬프트 부분만 다르므로 그 부분만 설명합니다. 

 

 

 

 

 

 

 

 

 

 

 

 -아래와 같은 형식(이미지를 주고 이미지속 특정 부분의 내용을 json형태로 요구)으로 프롬프트를 작성할 수 있습니다.

이와 같이 작성하면 제미나이가 스스로 이미지의 내용을 파악하고, 특정 객체의 이름, 가격, 등을 우리가 요구하는 형태로 제공해 줄 수 있습니다.

 

 

 


 

ㅁ 정리

 

O 우리가 배운 내용

 
 - 오늘은 구글의 제미나이 AI API를 이용하여 이미지의 전반적인 내용을 구조화하고, 이를 프로그램에서 사용할 수 있도록 json형태로 추출하는 방법(프롬프트)에 대하여 알아보았습니다.
 

 

다음 글에서는 단순 이미지를 보고, 이에 영감을 받아 스스로 스토리라인을 작성해 내는 프롬프트를 만들어 보겠습니다.

 

 

 

감사합니다.

 

 

 

 

좋은 내용의 글들이 계속 올려질 수 있도록 "공감" 버튼을 꾹 눌러주세요.

 

728x90
반응형
LIST