Question

У меня есть текстовый файл в кодировке ANSI, который не должен был быть закодирован как ANSI, так как он был акцентирован символы, которые ANSI не поддерживает. Я бы предпочел работать с UTF-8.

Можно ли правильно декодировать данные или они теряются при транскодировании?

Какие инструменты я могу использовать?

Вот пример того, что у меня есть:

Ã§ Ã©

Я могу сказать из контекста (café © должно быть café), что это должны быть эти два символа:

ç é

Miguel A. Friginal · Answer 1 · 25 сентября 2008

Существуют программы, которые пытаются определить кодировку файла, например chardet . Затем вы можете преобразовать его в другую кодировку, используя iconv. Но для этого необходимо, чтобы исходный текст оставался неповрежденным и информация не терялась (например, при удалении ударений или целых букв с акцентом).

Miguel A. Friginal · Answer 2 · 25 сентября 2008

А затем есть несколько более старая программа перекодирования .

Как исправить кодировку символов файла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 12 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как исправить кодировку символов файла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 12 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы