У меня есть PDF-документ, который в основном фарси, но также содержит некоторые латинские символы с диакритическими знаками выше или ниже от DMG * 1002 * * DIN 31635 для транслитерации арабского алфавита . PDF в основном правильно отображает как текст LTR, так и текст RTL, и они также могут в основном быть правильно извлечены такими инструментами, как TET (коммерческий) или GhostScript gs
.
К сожалению, есть отдельные символы, особенно в некоторых (но не во всех) местах, где должен быть ḍ
¹ ( E1 B8 8D ) где белый прямоугольник, содержащий 00 1F
(«разделитель информации один»), вместо этого визуализируется Pango. Я пытаюсь использовать его в качестве примера для выяснения способа исправить все остальные неработающие.
Другие байты слова, до и после рассматриваемого, 20
(-), 77
(w) и 75
(u), затем сам 1F
, затем C5
(Å), AB
(«), E2
(â), 80
(€) и 99
(™), затем, наконец, 20
(пробел) до начала следующего слова. Само слово, если оно было правильно введено и правильно отображалось, было бы wuḍūʼ
(DMG-представление وضوء
, означающее ритуал омовения перед молитвой в исламе).
Гедит показывает егонапример:
Проходя символ за символом, 75
и 77
действительны ASCII , а также действительны Unicode Basic Latin . Тогда есть то, что определенно выглядит как «латинская строчная буква u с макроном» (01 6B
), но я не вижу 0
, 1
или 6
в шестнадцатеричном представлении. То же самое с последним символом, который выглядит как «правая одинарная кавычка» (20 1A
), если только где-то 1
или B
везде после C5
. Ни один из 1F C5
( ??? ), AB E2
( � ) или 80 99
( � ) не имеет никакого смысла, либо.
Два вопроса:
- Где мне не удается понять, как составлена эта строка?
- Исходя из контекста, есть ли способ узнать, какой символкодирование «отсутствующего» символа могло изначально (возможно, на компьютере автора PDF) быть создано из?
-
¹ StackExchange, кажется, отфильтровывает забавный символ; загрузил файл, содержащий только обсуждаемое слово .