Question

Я использую tesseract (Ver 3) в Linux для извлечения текста из отсканированных PDF-файлов.Проблема в том, что весь процесс идет медленно, очень медленно.Например, для извлечения этого 20-страничного (http://www.a -pdf.com / scan-paper / a-pdf-scan-paper-doc.pdf) документа требуется 514 секунд (8+ минут)

для преобразованияpdf Я использовал приложение Image Magick convert.Ниже приведена команда set, которую я использую.

convert -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

Обратите внимание, что требуется 288 dpi, поскольку в противном случае tesseract не сможет полностью извлечь текст из отсканированного файла, который я тестировал.

Кто-нибудь знает, как я могу ускорить процесс, не влияя на качество результата?

nguyenq · Answer 1 · 20 мая 2011

Попробуйте VietOCR , чтобы увидеть, может ли он дать более быстрые результаты, как вы хотите.Может принимать PDF, если установлен Ghostscript.

ускорение tessearct

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

ускорение tessearct

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы