2019년 8월 26일 월요일



윈도우10 기준입니다.

구글의 Tesseract라는 소프트웨어를 활용하여 한글 OCR을 구현하는 방법입니다.

원본에 테이블이나 선 등, 그리고 품질이 좋다면 결과물도 괜찮은 편이고 속도또한 바릅니다.  다만, command line으로 하나씩 처리하니 불편하고, 테이블/선 등이 들어가 있으면 인식률이 떨어집니다.

Wrapper GUI가 있는듯 하고 Python등 다른 언어와 연동 할수 있는듯 하니, 다음 포스팅에는 그것을 해보겠습니다.

설치

Tesseract소프트웨어 repository의 위키에서 나왔듯 (https://github.com/tesseract-ocr/tesseract/wiki), Tesseract 윈도우용은 여기에서 설치 파일을 받아 설치합니다: https://github.com/UB-Mannheim/tesseract/wiki

설치시 여러 언어 트레이닝 데이타를 설치할수 있으니 따로 받을 필요가 없습니다.  (트레이닝 데이타: https://github.com/tesseract-ocr/tessdata)

프로그램및 데이타의 default 설치 위치: C:\Program Files\Tesseract-OCR

사용 방법

tesseract [이미지 파일] [결과물 파일 이름] -l [언어]

예제

C:\> set path=%PATH%;C:\Program Files\Tesseract-OCR
C:\> tesseract c:\tmp\sample.jfifc:\tmp\output-sample -l kor

결과물은 output-sample.txt 로 UTF8 형식으로 저장됩니다.


주의점

  • 디렉토리에 한글이 들어가면 파일을 찾지를 못합니다.

Previous Post
Next Post

0 comments: