Question

У меня есть выбор PDF-файлов, которые я хочу написать в мой текст.Я использую тика, чтобы разобрать текст из каждого файла PDF и сохранить его в формате .txt с кодировкой utf-8 (я использую windows)

Большинство файлов PDF были OCR, прежде чем я получил их, но когда япросмотрите извлеченный текст, который у меня есть "pnÁnn¿¡c" вместо "Phádraig", если я просматриваю PDF.

Могу ли я проверить текстовый слой PDF (простите, если это неверный термин) В идеале без полной версии Acrobat

lenz · Answer 1 · 16 октября 2018

Звучит так, как будто вы имеете дело с отсканированными книгами с "скрытым распознаванием", т.е.PDF показывает изображение оригинального документа, за которым находится слой текста OCRed.Это позволяет использовать функцию поиска и копировать и вставлять текст из документа.

При выделении текста скрытые символы становятся видимыми (хотя это может зависеть от используемого вами средства просмотра).Чтобы быть уверенным, вы можете скопировать и вставить выделенный текст в текстовый редактор.Это позволит вам определить, действительно ли вы так плохо относитесь к качеству распознавания текста или ваш процесс извлечения вызвал моджибаке.Поскольку качество распознавания в значительной степени зависит от языковых ресурсов (словарей, языковой модели), я не удивлюсь, если результат будет настолько плохим для языка с низким уровнем ресурсов, как гэльский (староирландский?).

Как определить, является ли проблема кодирования текста моей ошибкой обработки или перенесена из исходного pdf

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как определить, является ли проблема кодирования текста моей ошибкой обработки или перенесена из исходного pdf

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы