OCR пакетной обработки TIFF к тексту - PullRequest
1 голос
/ 20 марта 2012

У меня есть проблема, когда мне нужно пакетное преобразование 50000 TIFF в 50000 TXT-файлов соответственно. Я знаю об abbyy finereader и некоторых других программах, которые могут это сделать, но бесплатное решение было бы лучшим. Я также исследовал тессеракт. Кто-нибудь знает о каком-либо скрипте или программе, которые используют tesseract, чтобы сделать это автоматически с хорошим качеством вывода ??

Заранее спасибо

Ответы [ 3 ]

3 голосов
/ 20 марта 2012

Для бесплатного решения с Tesseract вот простой командный файл командной строки. Измените содержимое переменной и / или создайте папки, если необходимо:

:Start
   @Echo off
   Set _SourcePath=C:\tifs\*.tif
   Set _OutputPath=C:\txts\
   Set _Tesseract="C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"
:Convert
   For %%A in (%_SourcePath%) Do Echo Converting %%A...&%_Tesseract% %%A %_OutputPath%%%~nA
:End   
   Set "_SourcePath="
   Set "_OutputPath="
   Set "_Tesseract="
1 голос
/ 20 марта 2012

На мой взгляд, я думаю, что Tesseract даст вам наилучшие результаты, независимо от того, ищите вы бесплатные решения или нет.

Если вы поймете, как конвертировать один файл, а затем отправите сообщениевернув команду, которую вы используете, будет легко взломать пакетный скрипт для обработки нескольких файлов.

0 голосов
/ 22 марта 2012

Взгляните на VietOCR , интерфейс Java / .NET для Tesseract; Похоже, его функция соответствует вашим потребностям.

...