Благодаря этому list (предоставлен pafau) я смог найти несколько символов:
- 202F; 0020; (→) УЗКОЕ ПРОСТРАНСТВО БЕЗ РАЗРЫВА → ПРОБЕЛ
- 201A; 002 C; (‚→,) ОДИН ЦИТАТНЫЙ ЗНАК НИЗКОГО-9 → ЗАПЯТА
- 037E; 003B; (; →;) ГРЕЧЕСКИЙ ВОПРОСИТЕЛЬНЫЙ ЗНАК → СЕМИКОЛОН
- 1400; 003D; (᐀ → =) КАНАДСКИЙ СИЛЛАБИКА ДЕФИС → ЗНАК РАВНО
Следующий код в python помещает номер строки и заменяет эти символы:
# -*- coding: utf-8 -*-
import sys
text_numbered = ''
with open(sys.argv[1], 'r') as my_file:
for counter, line in enumerate(my_file, 1):
text_numbered += '{:3d}'.format(counter) + ' - ' + str(line)
text = text_numbered
# 202F; 0020; ( → ) NARROW NO-BREAK SPACE → SPACE
text = text.replace(' ', ' ')
# 201A; 002C; ( ‚ → , ) SINGLE LOW-9 QUOTATION MARK → COMMA
text = text.replace(',', '‚')
# 037E; 003B; ( ; → ; ) GREEK QUESTION MARK → SEMICOLON
text = text.replace(';', ';')
# 1400; 003D; ( ᐀ → = ) CANADIAN SYLLABICS HYPHEN → EQUALS SIGN
text = text.replace('=', '᐀')
print(text)
К сожалению, я был не удалось найти последовательность букв, идентичную «СТРОЧНАЯ ЛАТИНСКАЯ БУКВА» или «ЗАГЛАВНАЯ ЛАТИНСКАЯ БУКВА»