Странный случай извлечения текста из PDF - PullRequest
2 голосов
/ 11 августа 2011

Я смотрю на следующий URL: http://www.unisonagency.com/assets/news/unison_pr_mvsl.pdf

Все инструменты извлечения текста с открытым исходным кодом, которые я пробовал, дают мне следующее для заголовка:

uNISON LAuNCHeS MAGHReb VIRTuAL SCIeNCe LIbRARy: A NeW
PORTAL PROMOTING INTeRNATIONAL SCIeNTIFIC AND
TeCHNICAL COLLAbORATION

ОднакоAdobe Acrobat Reader дает что-то более разумное -

Unison Launch es Maghr eb Virt ual Sci enc e
Librar y: A New Portal Promoting Int ernational
Scientific and Technical Colla boration

Пробелы отключены, но регистр символов имеет больше смысла.Есть идеи, почему есть расхождение?

Ответы [ 2 ]

3 голосов
/ 12 августа 2011

Видимо, это пример потока «помеченного содержимого», в котором операторы BDC / EMC используются для аннотирования потока с помощью атрибутов «ActualText», где находится правильный текст.

Сам текст в UTF-16BE или PDFDocEncoding в соответствии с 7.9.2.2 в PDF 32000-1: 2008

0 голосов
/ 11 августа 2011

Шрифты описаны внутри документа. Инструменты извлечения текста неверно интерпретируют описание или делают предположение на основе кода символа. Продукты Adobe делают это по-другому и правильно интерпретируют.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...