Tesseract v4.0.0-beta.4.20180912.
Я использую ImageMagicK для преобразования PDF в TIFF
magick.exe convert -density 200 -trim test.pdf -depth 8 -strip -background white -alpha off -quality 100 -compress zip test.TIF
, затем использую tesseract для OCR, используя следующую командную строку:
tesseract test.TIF test PDF
Пытаюсь обработать64 страницы pdf (2 733 КБ) на моей локальной машине занимают 300 секунд, а на нашем сервере это колоссальные 836 секунд.
Моя локальная машина - 3,50 ГГц, 16Оперативная память ГБ, Windows 7 Server имеет 2,30 ГГц, Оперативная память 32 ГБ, WindowServer2012
Есть ли что-нибудь, что я могу сделать, чтобы ускорить это.На моей локальной машине я обрабатываю страницу за 4,7 секунды.Я пытаюсь сделать это ближе к 1 секунде на страницу, если это возможно.Надеюсь, я смогу выяснить, как быстрее это обработать и на нашем сервере.