Я использую tesseract (Ver 3) в Linux для извлечения текста из отсканированных PDF-файлов.Проблема в том, что весь процесс идет медленно, очень медленно.Например, для извлечения этого 20-страничного (http://www.a -pdf.com / scan-paper / a-pdf-scan-paper-doc.pdf) документа требуется 514 секунд (8+ минут)
для преобразованияpdf Я использовал приложение Image Magick convert.Ниже приведена команда set, которую я использую.
convert -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif
tesseract tmp.tif out.txt
Обратите внимание, что требуется 288 dpi, поскольку в противном случае tesseract не сможет полностью извлечь текст из отсканированного файла, который я тестировал.
Кто-нибудь знает, как я могу ускорить процесс, не влияя на качество результата?