Как преобразовать PDF отсканированное изображение в TIFF высокого разрешения с лучшим для OCR? - PullRequest
0 голосов
/ 16 мая 2018

Я конвертирую PDF в TIFF изображение с магией изображения, размер файла от 500 КБ до 4,6 МБ.

Проблема в том, что преобразование в изображение TIFF не очень хорошее. Некоторый текст трудно читать.

это моя простая команда в кли

convert \
pph.pdf \
pph-psd.tiff

PDF отсканированное изображение: PDF Scanned Image

Изображение Tiff: TIFF IMAGE

Почему это произошло и как преобразовать отсканированное в PDF-формате изображение в формат высокого разрешения с лучшим для ocr?

Ответы [ 2 ]

0 голосов
/ 17 мая 2018

Если хотите, можете попробовать Coolutils TotalPDFConverter, который работал для меня.

0 голосов
/ 16 мая 2018

Это произошло из-за того, что ImageMagick - это процессор растровых изображений, и он растеризовал ваш PDF-файл, используя сетку по умолчанию 72dpi, что слишком грубо для ваших нужд.Вам нужно установить более высокую плотность перед растеризацией:

convert -density 288 input.pdf -compress lzw result.tiff

Возможно, вам лучше установить инструменты Poppler и использовать инструмент pdfimages для извлечения изображений.

...