이미지 To 텍스트 - 1.텍스트 이미지to텍스트 프로그램
ㅁ 개요
O 프로젝트 소개
- 이번 글은 이전글(이미지 To 텍스트 - 0.소개)에 이은 2번째 글로 가장 간단한 코드로 이미지에서 텍스트를 뽑아내는 방법을 알아보고, 이를 위해 Tesseract 프로그램을 다운로드하고 설치 후 환경변수 설정하는 것까지 살펴보겠습니다.
O 완성된 프로그램 실행 화면
1. 1.py 실행 시 아래와 같이 이미지의 텍스트를 잘 뽑아낸 것을 볼 수 있습니다.
실제 사용한 이미지는 아래와 같습니다.
ㅁ 세부 내용
O 완성된 소스
소스파일 : 1.py
import pytesseract
from PIL import Image
img_file = 'card7.png'
image = Image.open(img_file)
text = pytesseract.image_to_string(image, lang='kor+eng') # 'kor+eng'를 사용하여 한글과 영어 인식
print(text)
이미지 파일 : card7.png
O 소스 실행 방법
O 주요 내용
아래 소스코드에 대한 간략하게 주요 내용만 설명하겠습니다.
소스 파일 : 1.py
line 1~2 : 관련 모듈을 임포트 해줍니다.
line 5 : 실제 이미지를 열어 image객체를 생성합니다.
line 6 : pytesseract모듈의 image_to_string 메소드로 이미지 객체에서 한글과 영어 텍스트를 추출하여 text변수에 할당합니다.
위의 소스프로그램이 정상적으로 실행되기 위해서는 아래와 같이 Tesseract프로그램을 설치해야 합니다. 다음과 같이 따라하시기 바랍니다.
1. 구글에서 아래와 검색 후 클릭합니다.
2. 아래 링크를 클릭합니다.
https://github.com/tesseract-ocr/tesseract?tab=readme-ov-file
3. 아래 링크를 클릭합니다.
https://tesseract-ocr.github.io/tessdoc/Installation.html
4. 아래 링크를 클릭하여 파일을 다운로드 후 설치합니다.
https://github.com/UB-Mannheim/tesseract/wiki
5. 위의 과정 후 cmd를 실행하고, 'tesseract' 명령 실행 시 아래와 같이 나오지 않는다면, tesseract.exe파일이 환경변수에 등록되지 않은 것으로 수동으로 등록(아래 6번 과정 수행)해야 합니다.
6.윈도우 '검색'에서 '시스템 환경 변수 편집'으로 검색 후 아래와 같이 환경변수를 설정해 줍니다.
마지막으로 이미지에서 한글을 추출하기 위해 아래와 같이 따라합니다.
1. 아래 사이트에 접속 후 (3)번을 눌러 kor.traineddata 파일을 다운로드 합니다.
https://github.com/tesseract-ocr/tessdata/blob/main/kor.traineddata
2. 아래 tesseract가 설치된 경로 밑에 'tessdata' 폴더에 위에서 받은 파일을 위치 시킵니다.
ㅁ 정리
O 우리가 배운 내용
오늘은 여기까지이며, 위의 내용이 유익하셨다면, 광고 한번씩만 클릭 부탁드립니다.
감사합니다.