ускорение tessearct - PullRequest
       6

ускорение tessearct

1 голос
/ 02 мая 2011

Я использую tesseract (Ver 3) в Linux для извлечения текста из отсканированных PDF-файлов.Проблема в том, что весь процесс идет медленно, очень медленно.Например, для извлечения этого 20-страничного (http://www.a -pdf.com / scan-paper / a-pdf-scan-paper-doc.pdf) документа требуется 514 секунд (8+ минут)

для преобразованияpdf Я использовал приложение Image Magick convert.Ниже приведена команда set, которую я использую.

convert -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

Обратите внимание, что требуется 288 dpi, поскольку в противном случае tesseract не сможет полностью извлечь текст из отсканированного файла, который я тестировал.

Кто-нибудь знает, как я могу ускорить процесс, не влияя на качество результата?

1 Ответ

0 голосов
/ 20 мая 2011

Попробуйте VietOCR , чтобы увидеть, может ли он дать более быстрые результаты, как вы хотите.Может принимать PDF, если установлен Ghostscript.

...