Question

Я пытаюсь декодировать PDF, чтобы получить текст из него, но у меня возникла проблема с использованием массивов различий. Массив различий, который я извлекаю из документа, с которым я работаю, имеет следующий формат:

'BaseEncoding': 'WinAnsiEncoding', 'Differences': [1, 'g39', 'g38', 'g51', ';#23#23#23', ';#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23', 'g40', 'g79', 'g72', 'g70', 'g87', 'g85', 'g82', 'g81', 'g76', 'g54'...]

Я нашел объяснения, как использовать другие форматы таблиц различий, такие как:

/Differences [ 24 /breve/caron/circumflex/dotaccent/hungarumlaut/ogonek/ring/tilde 39 /quotesingle 96 /grave 128 /bullet/dagger/daggerdbl/ellipsis... ]

Где числовой код говорит вам, какой символ должен использоваться, но я не могу найти объяснения, как использовать таблицу различий первого типа.

Редактировать: вот файл

JosephA · Answer 1 · 16 марта 2019

Раздел 9.6.6 Кодировка символов в спецификации ISO PDF32000-1: 2008 описывает ключ Различия словаря / Encoding как:

Массив, описывающий отличия от указанной кодировкиBaseEncoding или, если BaseEncoding отсутствует, из неявного базового кодирования.Массив Differences описан в последующих подпунктах.

В этом случае он определяет отличия от WinAnsiEncoding.

Незнакомый формат в pdf массиве различий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Незнакомый формат в pdf массиве различий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы