Как исправить кодировку символов файла? - PullRequest
45 голосов
/ 25 сентября 2008

У меня есть текстовый файл в кодировке ANSI, который не должен был быть закодирован как ANSI, так как он был акцентирован символы, которые ANSI не поддерживает. Я бы предпочел работать с UTF-8.

Можно ли правильно декодировать данные или они теряются при транскодировании?

Какие инструменты я могу использовать?

Вот пример того, что у меня есть:

ç é

Я могу сказать из контекста (café © должно быть café), что это должны быть эти два символа:

ç é

Ответы [ 12 ]

0 голосов
/ 25 сентября 2008

Существуют программы, которые пытаются определить кодировку файла, например chardet . Затем вы можете преобразовать его в другую кодировку, используя iconv. Но для этого необходимо, чтобы исходный текст оставался неповрежденным и информация не терялась (например, при удалении ударений или целых букв с акцентом).

0 голосов
/ 25 сентября 2008

А затем есть несколько более старая программа перекодирования .

...