Как я могу угадать кодировку HTML-документа? - PullRequest
0 голосов
/ 24 марта 2011

Некоторым искаженным и неполным HTML-страницам не назначена информация о кодировке, и я должен выяснить, как их отображать.Поскольку существуют десятки систем кодирования, мне интересно, есть ли алгоритм, который я могу использовать для правильного выполнения этой задачи.Есть ли такая вещь?

Спасибо!

1 Ответ

1 голос
/ 24 марта 2011

Попробуйте jchardet или chsdet . Обнаружение набора символов является вероятностным, поэтому в некоторых случаях оно может пойти не так, я успешно использовал jchardet несколько лет назад.

...