Как я могу определить кодировку файла? - PullRequest
7 голосов
/ 12 января 2012

Я пытаюсь выяснить кодировку файла в Windows, используя Go. Проведя небольшое исследование, я нашел много рекомендаций для Детекторов Charset (chardet) Mozilla, но их сложно скомпилировать, и мне не повезло.

Я также нашел libguess, и, похоже, он широко используется в Linux, но я не могу заставить его работать в Windows.

Какой лучший способ сделать это? Существует ли де-факто стандартная библиотека для использования с Go на Windows?

Ответы [ 2 ]

1 голос
/ 12 января 2012

Вы можете использовать python пакет: chardet .

0 голосов
/ 12 января 2012

Вас может заинтересовать Enca , чрезвычайно наивный анализатор кодировки.Я полагаю, вы могли бы попытаться прочитать файл, используя все возможные кодировки, и вычислить, как далеко каждая из попыток находится от «стандартного» распределения частот символа для языка.Enca требует некоторую информацию о языке, но я не уверен, что он использует этот подход.(Это просто идея, она может быть ужасно ошибочной.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...