Незнакомый формат в pdf массиве различий - PullRequest
0 голосов
/ 15 марта 2019

Я пытаюсь декодировать PDF, чтобы получить текст из него, но у меня возникла проблема с использованием массивов различий. Массив различий, который я извлекаю из документа, с которым я работаю, имеет следующий формат:

'BaseEncoding': 'WinAnsiEncoding', 'Differences': [1, 'g39', 'g38', 'g51', ';#23#23#23', ';#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23', 'g40', 'g79', 'g72', 'g70', 'g87', 'g85', 'g82', 'g81', 'g76', 'g54'...]

Я нашел объяснения, как использовать другие форматы таблиц различий, такие как:

/Differences [ 24 /breve/caron/circumflex/dotaccent/hungarumlaut/ogonek/ring/tilde 39 /quotesingle 96 /grave 128 /bullet/dagger/daggerdbl/ellipsis... ]

Где числовой код говорит вам, какой символ должен использоваться, но я не могу найти объяснения, как использовать таблицу различий первого типа.

Редактировать: вот файл

1 Ответ

0 голосов
/ 16 марта 2019

Раздел 9.6.6 Кодировка символов в спецификации ISO PDF32000-1: 2008 описывает ключ Различия словаря / Encoding как:

Массив, описывающий отличия от указанной кодировкиBaseEncoding или, если BaseEncoding отсутствует, из неявного базового кодирования.Массив Differences описан в последующих подпунктах.

В этом случае он определяет отличия от WinAnsiEncoding.

...