ImageMagick и Tesseract (PDF в TIFF в PDF) размер проблемы - PullRequest
0 голосов
/ 18 сентября 2018

Моя компания отказывается от использования приложения SimpleIndex, которое может распознавать файлы для отсканированных изображений.Я тестирую ImageMagicK / Tesseract OCR (надеюсь, с PHP, чтобы сделать работу).Изначально у нас есть PDF, в котором несколько отсканированных изображений объединены вместе.Затем я использую эту командную строку, чтобы использовать ImageMagicK для преобразования файла PDF в формат TIF.

magick.exe convert -strip -alpha off -density 300 100492.PDF -depth 2 -quality 100 -compress zip 100492.TIF
  • Исходный размер PDF составляет 2 573 КБ.
  • После ImageMagicK он увеличивается4 219 КБ.

Далее я использую эту команду для тессеракта, чтобы распознать TIF-файл и вывести его в формате PDF.

tesseract 100492.tif 100492 PDF
  • Конечный результатPDF размером 7 208 КБ.

  • Это более чем в вдвое больше, чем файла SimpleIndex, что составляет 3589 КБ.

Можно ли еще что-нибудь сделать, чтобы уменьшить размер файла?

ПРИМЕЧАНИЕ. Как ни странно, я протестировал другой файл TIF (тот же оригинальный файл PDF, но изменил глубину с 2 до 8 и качество со 100 допо умолчанию 92 на ImageMagicK, который произвел файл TIF 6,466 КБ).После запуска tesseract на нем был получен файл точно такого же размера PDF при 7 208 КБ PDF.

...