ํ•œ๊ธ€ OCR ๊ตฌํ˜„



์œˆ๋„์šฐ10 ๊ธฐ์ค€์ž…๋‹ˆ๋‹ค.

๊ตฌ๊ธ€์˜ Tesseract๋ผ๋Š” ์†Œํ”„ํŠธ์›จ์–ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ•œ๊ธ€ OCR์„ ๊ตฌํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

์›๋ณธ์— ํ…Œ์ด๋ธ”์ด๋‚˜ ์„  ๋“ฑ, ๊ทธ๋ฆฌ๊ณ  ํ’ˆ์งˆ์ด ์ข‹๋‹ค๋ฉด ๊ฒฐ๊ณผ๋ฌผ๋„ ๊ดœ์ฐฎ์€ ํŽธ์ด๊ณ  ์†๋„๋˜ํ•œ ๋ฐ”๋ฆ…๋‹ˆ๋‹ค.  ๋‹ค๋งŒ, command line์œผ๋กœ ํ•˜๋‚˜์”ฉ ์ฒ˜๋ฆฌํ•˜๋‹ˆ ๋ถˆํŽธํ•˜๊ณ , ํ…Œ์ด๋ธ”/์„  ๋“ฑ์ด ๋“ค์–ด๊ฐ€ ์žˆ์œผ๋ฉด ์ธ์‹๋ฅ ์ด ๋–จ์–ด์ง‘๋‹ˆ๋‹ค.

Wrapper GUI๊ฐ€ ์žˆ๋Š”๋“ฏ ํ•˜๊ณ  Python๋“ฑ ๋‹ค๋ฅธ ์–ธ์–ด์™€ ์—ฐ๋™ ํ• ์ˆ˜ ์žˆ๋Š”๋“ฏ ํ•˜๋‹ˆ, ๋‹ค์Œ ํฌ์ŠคํŒ…์—๋Š” ๊ทธ๊ฒƒ์„ ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์„ค์น˜

Tesseract์†Œํ”„ํŠธ์›จ์–ด repository์˜ ์œ„ํ‚ค์—์„œ ๋‚˜์™”๋“ฏ (https://github.com/tesseract-ocr/tesseract/wiki), Tesseract ์œˆ๋„์šฐ์šฉ์€ ์—ฌ๊ธฐ์—์„œ ์„ค์น˜ ํŒŒ์ผ์„ ๋ฐ›์•„ ์„ค์น˜ํ•ฉ๋‹ˆ๋‹ค: https://github.com/UB-Mannheim/tesseract/wiki

์„ค์น˜์‹œ ์—ฌ๋Ÿฌ ์–ธ์–ด ํŠธ๋ ˆ์ด๋‹ ๋ฐ์ดํƒ€๋ฅผ ์„ค์น˜ํ• ์ˆ˜ ์žˆ์œผ๋‹ˆ ๋”ฐ๋กœ ๋ฐ›์„ ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค.  (ํŠธ๋ ˆ์ด๋‹ ๋ฐ์ดํƒ€: https://github.com/tesseract-ocr/tessdata)

ํ”„๋กœ๊ทธ๋žจ๋ฐ ๋ฐ์ดํƒ€์˜ default ์„ค์น˜ ์œ„์น˜: C:\Program Files\Tesseract-OCR

์‚ฌ์šฉ ๋ฐฉ๋ฒ•

tesseract [์ด๋ฏธ์ง€ ํŒŒ์ผ] [๊ฒฐ๊ณผ๋ฌผ ํŒŒ์ผ ์ด๋ฆ„] -l [์–ธ์–ด]

์˜ˆ์ œ

C:\> set path=%PATH%;C:\Program Files\Tesseract-OCR
C:\> tesseract c:\tmp\sample.jfifc:\tmp\output-sample -l kor

๊ฒฐ๊ณผ๋ฌผ์€ output-sample.txt ๋กœ UTF8 ํ˜•์‹์œผ๋กœ ์ €์žฅ๋ฉ๋‹ˆ๋‹ค.


์ฃผ์˜์ 

  • ๋””๋ ‰ํ† ๋ฆฌ์— ํ•œ๊ธ€์ด ๋“ค์–ด๊ฐ€๋ฉด ํŒŒ์ผ์„ ์ฐพ์ง€๋ฅผ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

๋Œ“๊ธ€