Мне нужно очистить некоторый файл, содержащий текст на французском языке. Проблема заключается в том, что файлы ошибочно содержат несколько кодировок в одном и том же файле.
Я думаю, что некоторые разделы соответствуют ISO8859-1 (Latin 1), но другие части имеют текст, закодированный однобайтовыми символами, которые выглядят как «расширенный» ASCII. Другими словами, это кодировка UTF-7 плюс следующее:
- 0x82 для é (e острый)
- 0x8a для è (e grave)
- 0x88 для ê (e циркуфлекс)
- 0x85 за а (могила)
- 0x87 для ç (c cedilla)
Какая это кодировка?