파이썬 실습/이미지 To 텍스트

이미지 To 텍스트 - 1.텍스트 이미지to텍스트 프로그램

파기차차 2024. 9. 8. 10:44
728x90
반응형
SMALL

ㅁ 개요

 

O 프로젝트 소개

 

 

 - 이번 글은 이전글(이미지 To 텍스트 - 0.소개)에 이은 2번째 글로 가장 간단한 코드로 이미지에서 텍스트를 뽑아내는 방법을 알아보고, 이를 위해 Tesseract 프로그램을 다운로드하고 설치 후 환경변수 설정하는 것까지 살펴보겠습니다.

 

 

 

 

O 완성된 프로그램 실행 화면

 

 

 - 최종 완성된 프로그램의 결과화면은 아래와 같습니다.

 

 

1. 1.py 실행 시 아래와 같이 이미지의 텍스트를 잘 뽑아낸 것을 볼 수 있습니다.

 

 

 

 

 

실제 사용한 이미지는 아래와 같습니다.

 

 

 

 


 

ㅁ 세부 내용

 

O 완성된 소스

 

소스파일 : 1.py

 

 

import pytesseract
from PIL import Image

img_file = 'card7.png'
image = Image.open(img_file)
text = pytesseract.image_to_string(image, lang='kor+eng')  # 'kor+eng'를 사용하여 한글과 영어 인식
print(text)

 

 

이미지 파일 : card7.png

 

card7.png
0.05MB

 

 

O 소스 실행 방법

 
 
 - 소스파일 다운로드 후 cmd 또는 파워쉘 등에서 아래와 같이 실행하시기 바랍니다.
 
 > python 1.py

 


 
 

O 주요 내용

 

아래 소스코드에 대한 간략하게 주요 내용만 설명하겠습니다.

 

 

소스 파일 : 1.py

 

line 1~2 : 관련 모듈을 임포트 해줍니다.

line 5 : 실제 이미지를 열어 image객체를 생성합니다.

line 6 : pytesseract모듈의 image_to_string 메소드로 이미지 객체에서 한글과 영어 텍스트를 추출하여 text변수에 할당합니다.

 

 

 

 

 

 

 

 

위의 소스프로그램이 정상적으로 실행되기 위해서는 아래와 같이 Tesseract프로그램을 설치해야 합니다. 다음과 같이 따라하시기 바랍니다.

 

1. 구글에서 아래와 검색 후 클릭합니다.

 

2. 아래 링크를 클릭합니다.

https://github.com/tesseract-ocr/tesseract?tab=readme-ov-file

 

 

3. 아래 링크를 클릭합니다.

https://tesseract-ocr.github.io/tessdoc/Installation.html

 

 

4. 아래 링크를 클릭하여 파일을 다운로드 후 설치합니다.

https://github.com/UB-Mannheim/tesseract/wiki

 

 

5. 위의 과정 후 cmd를 실행하고, 'tesseract' 명령 실행 시 아래와 같이 나오지 않는다면, tesseract.exe파일이 환경변수에 등록되지 않은 것으로 수동으로 등록(아래 6번 과정 수행)해야 합니다.

 

 

 

 

6.윈도우 '검색'에서 '시스템 환경 변수 편집'으로 검색 후 아래와 같이 환경변수를 설정해 줍니다.

 

 

 

 

 

 

마지막으로 이미지에서 한글을 추출하기 위해 아래와 같이 따라합니다.

 

1. 아래 사이트에 접속 후 (3)번을 눌러 kor.traineddata 파일을 다운로드 합니다.

https://github.com/tesseract-ocr/tessdata/blob/main/kor.traineddata

 

 

 

 

2. 아래 tesseract가 설치된 경로 밑에 'tessdata' 폴더에 위에서 받은 파일을 위치 시킵니다.

 

 

 


 

ㅁ 정리

 

O 우리가 배운 내용

 
 - 오늘은 가장 간단한 코드로 이미지에서 텍스트를 뽑아내는 방법을 알아보았으며, 이를 위해 Tesseract 프로그램을 다운로드하고 설치 후 환경변수 설정 및 한글을 추출하기 위한 방법까지 살펴보았습니다.
 
 

 

오늘은 여기까지이며, 위의 내용이 유익하셨다면, 광고 한번씩만 클릭 부탁드립니다.

 

 

감사합니다.

728x90
반응형
LIST