Я пытаюсь декодировать PDF, чтобы получить текст из него, но у меня возникла проблема с использованием массивов различий. Массив различий, который я извлекаю из документа, с которым я работаю, имеет следующий формат:
'BaseEncoding': 'WinAnsiEncoding', 'Differences': [1, 'g39', 'g38', 'g51', ';#23#23#23', ';#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23', 'g40', 'g79', 'g72', 'g70', 'g87', 'g85', 'g82', 'g81', 'g76', 'g54'...]
Я нашел объяснения, как использовать другие форматы таблиц различий, такие как:
/Differences [
24 /breve/caron/circumflex/dotaccent/hungarumlaut/ogonek/ring/tilde
39 /quotesingle
96 /grave
128 /bullet/dagger/daggerdbl/ellipsis...
]
Где числовой код говорит вам, какой символ должен использоваться, но я не могу найти объяснения, как использовать таблицу различий первого типа.
Редактировать: вот файл