Я не могу найти файл PDF - PullRequest
0 голосов
/ 20 ноября 2018

У меня проблема с поиском в файле PDF.

Я обнаружил, что проблема вызвана неправильным типом кодирования.Я прочитал на форуме, я ничего не могу с этим поделать, только если я свяжусь с создателем pdf файла, чтобы использовать правильный тип кодирования, но для меня это невозможно.

Вы можете видеть на этом изображении Я ищу определенное слово, которое, я знаю, содержится в документе, но не может его найти.

Прямоугольные символы - это буквы венгерского акцента в документе PDF.

Что я сделал, так это экспортировалвесь pdf в файлы изображений jpeg2000 или jpg или tif, рекомбинируйте все страницы в один файл pdf и запустите OCR, но при таком подходе файл стал слишком большим, с более низким разрешением он потерял слишком много деталей, поэтому его нельзя было использовать (ноон стал доступен для поиска)

Кто-нибудь знает способ создания хорошего качества PDF-файла с возможностью поиска?

...