PDF извлечение данных дает символы / бред? - PullRequest
3 голосов
/ 07 ноября 2011

У меня есть программа под названием PDF2XL, которая обычно отлично подходит для извлечения таблиц данных из файлов PDF.Раньше я использовал его с сотнями файлов.

Этот файл дает мне бессмысленный вывод, который я даже не могу правильно скопировать и вставить в эту текстовую область.Все виды странностей Unicode.

Если я копирую и вставляю как обычно в Excel / Notepad, я получаю ту же проблему.

Я предполагаю, что это связано с испорченным заголовком кодировки символов вфайл PDF?Как я могу изменить это?У меня Windows, и у меня нет программного обеспечения, которое может редактировать PDF-файлы, поэтому, если мне нужно отредактировать / повторно сохранить его, пожалуйста, порекомендуйте бесплатный фрагмент ПО для этого.

Спасибо!

1 Ответ

6 голосов
/ 04 октября 2012

Количество файлов PDF, используемых в качестве подмножественных шрифтов, постоянно увеличивается, что в основном является пользовательской кодировкой. Обычно дескриптор шрифта в PDF-файле должен иметь таблицу ToUnicode, позволяющую извлечению текста декодировать кодировку шрифта и возвращать правильный текст.

Некоторые производители PDF делают это специально, чтобы предотвратить простое извлечение текста PDF для таких вещей, как финансовые отчеты. Если есть только один шрифт, то вы можете вручную декодировать шрифт, но по моему опыту я видел PDF с несколькими случайными кодировками, что делает практически невозможным автоматическое декодирование.

Один из способов проверки файлов PDF такого типа - открыть файл в Acrobat, выделить текст, скопировать его, а затем вставить его в Блокнот. Если текст искажен, то в PDF-файле используется заданный шрифт, и вы можете сделать немного больше. Если Acrobat не может извлечь текст правильно, то больше ничего не может. Это может быть и страница иероглифов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...