Моя компания отказывается от использования приложения SimpleIndex, которое может распознавать файлы для отсканированных изображений.Я тестирую ImageMagicK / Tesseract OCR (надеюсь, с PHP, чтобы сделать работу).Изначально у нас есть PDF, в котором несколько отсканированных изображений объединены вместе.Затем я использую эту командную строку, чтобы использовать ImageMagicK для преобразования файла PDF в формат TIF.
magick.exe convert -strip -alpha off -density 300 100492.PDF -depth 2 -quality 100 -compress zip 100492.TIF
- Исходный размер PDF составляет 2 573 КБ.
- После ImageMagicK он увеличивается4 219 КБ.
Далее я использую эту команду для тессеракта, чтобы распознать TIF-файл и вывести его в формате PDF.
tesseract 100492.tif 100492 PDF
Конечный результатPDF размером 7 208 КБ.
Это более чем в вдвое больше, чем файла SimpleIndex, что составляет 3589 КБ.
Можно ли еще что-нибудь сделать, чтобы уменьшить размер файла?
ПРИМЕЧАНИЕ. Как ни странно, я протестировал другой файл TIF (тот же оригинальный файл PDF, но изменил глубину с 2 до 8 и качество со 100 допо умолчанию 92 на ImageMagicK, который произвел файл TIF 6,466 КБ).После запуска tesseract на нем был получен файл точно такого же размера PDF при 7 208 КБ PDF.