Возможна смешанная кодировка строки: как найти пропущенный символ? - PullRequest
0 голосов
/ 24 октября 2019

У меня есть PDF-документ, который в основном фарси, но также содержит некоторые латинские символы с диакритическими знаками выше или ниже от DMG * ​​1002 * * DIN 31635 для транслитерации арабского алфавита . PDF в основном правильно отображает как текст LTR, так и текст RTL, и они также могут в основном быть правильно извлечены такими инструментами, как TET (коммерческий) или GhostScript gs.

К сожалению, есть отдельные символы, особенно в некоторых (но не во всех) местах, где должен быть ¹ ( E1 B8 8D ) где белый прямоугольник, содержащий 00 1F («разделитель информации один»), вместо этого визуализируется Pango. Я пытаюсь использовать его в качестве примера для выяснения способа исправить все остальные неработающие.

Другие байты слова, до и после рассматриваемого, 20 (-), 77 (w) и 75 (u), затем сам 1F, затем C5 (Å), AB («), E2 (â), 80 (€) и 99 (™), затем, наконец, 20 (пробел) до начала следующего слова. Само слово, если оно было правильно введено и правильно отображалось, было бы wuḍūʼ (DMG-представление وضوء, означающее ритуал омовения перед молитвой в исламе).

Гедит показывает егонапример:

enter image description here

Проходя символ за символом, 75 и 77 действительны ASCII , а также действительны Unicode Basic Latin . Тогда есть то, что определенно выглядит как «латинская строчная буква u с макроном» (01 6B), но я не вижу 0, 1 или 6 в шестнадцатеричном представлении. То же самое с последним символом, который выглядит как «правая одинарная кавычка» (20 1A), если только где-то 1 или B везде после C5. Ни один из 1F C5 ( ??? ), AB E2 () или 80 99 () не имеет никакого смысла, либо.

Два вопроса:

  • Где мне не удается понять, как составлена ​​эта строка?
  • Исходя из контекста, есть ли способ узнать, какой символкодирование «отсутствующего» символа могло изначально (возможно, на компьютере автора PDF) быть создано из?

-

¹ StackExchange, кажется, отфильтровывает забавный символ; загрузил файл, содержащий только обсуждаемое слово .

...