Как определить, является ли проблема кодирования текста моей ошибкой обработки или перенесена из исходного pdf - PullRequest
0 голосов
/ 15 октября 2018

У меня есть выбор PDF-файлов, которые я хочу написать в мой текст.Я использую тика, чтобы разобрать текст из каждого файла PDF и сохранить его в формате .txt с кодировкой utf-8 (я использую windows)

Большинство файлов PDF были OCR, прежде чем я получил их, но когда япросмотрите извлеченный текст, который у меня есть "pnÁnn¿¡c" вместо "Phádraig", если я просматриваю PDF.

Могу ли я проверить текстовый слой PDF (простите, если это неверный термин) В идеале без полной версии Acrobat

1 Ответ

0 голосов
/ 16 октября 2018

Звучит так, как будто вы имеете дело с отсканированными книгами с "скрытым распознаванием", т.е.PDF показывает изображение оригинального документа, за которым находится слой текста OCRed.Это позволяет использовать функцию поиска и копировать и вставлять текст из документа.

При выделении текста скрытые символы становятся видимыми (хотя это может зависеть от используемого вами средства просмотра).Чтобы быть уверенным, вы можете скопировать и вставить выделенный текст в текстовый редактор.Это позволит вам определить, действительно ли вы так плохо относитесь к качеству распознавания текста или ваш процесс извлечения вызвал моджибаке.Поскольку качество распознавания в значительной степени зависит от языковых ресурсов (словарей, языковой модели), я не удивлюсь, если результат будет настолько плохим для языка с низким уровнем ресурсов, как гэльский (староирландский?).

...