Какая это кодировка символов? - PullRequest
4 голосов
/ 23 апреля 2010

Мне нужно очистить некоторый файл, содержащий текст на французском языке. Проблема заключается в том, что файлы ошибочно содержат несколько кодировок в одном и том же файле.

Я думаю, что некоторые разделы соответствуют ISO8859-1 (Latin 1), но другие части имеют текст, закодированный однобайтовыми символами, которые выглядят как «расширенный» ASCII. Другими словами, это кодировка UTF-7 плюс следующее:

  • 0x82 для é (e острый)
  • 0x8a для è (e grave)
  • 0x88 для ê (e циркуфлекс)
  • 0x85 за а (могила)
  • 0x87 для ç (c cedilla)

Какая это кодировка?

Ответы [ 2 ]

8 голосов
/ 23 апреля 2010

Это оригинальная кодировка IBM PC, Кодовая страница 437 .

0 голосов
/ 23 апреля 2010

Этот сайт здесь показывает ссылку с 0x87 для cedilla. Я не смотрю дальше, чем это, но держу пари, что остальная часть вашей информации может быть найдена и здесь.

...