Как подробно с символом cjk правильно для веб-страницы? - PullRequest
0 голосов
/ 13 июня 2019

Я не могу правильно видеть символы cjk. Кажется, что это ошибочно, как в кодировке ISO-8859. Я думаю, что кодировка UTF-8 является подходящей. Кто-нибудь знает, как решить проблему.

$ wget http://yjs.cd120.com/daoshi.html 
$ grep 'selectid="99"' daoshi.html 
Binary file daoshi.html matches
$ file daoshi.html 
daoshi.html: HTML document text, ISO-8859 text, with very long lines, with CRLF line terminators

Ответы [ 2 ]

2 голосов
/ 13 июня 2019

Во-первых, вы должны определить, какова действительная кодировка файла, полученного с помощью wget (или curl в этом отношении).

Выполнение команды:

grep 'Content-Type' daoshi.html

будет отображаться:

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

, где charset=gb2312 означает, что HTML-файл закодирован в Упрощенный китайский (ГБ 2312) .

Затем вы можете использовать команду iconv для преобразования файла в новую версию UTF-8:

iconv -f gb2312 -t utf-8 daoshi.html >daoshi-utf8.html

Наконец, в зависимости от ваших потребностей, вы можете настроить содержимое тега meta в начале файла в соответствии с новой кодировкой, используя sed, например:

sed s/charset=gb2312/charset=utf-8/ daoshi-utf8.html >daoshi-utf8-final.html
0 голосов
/ 13 июня 2019

https://www.w3.org/International/questions/qa-changing-encoding

Резюме:

Шаг 1: сохранить данные как UTF-8

Шаг 2. Объявите кодировку на своей странице

<meta charset="utf-8"/>

Шаг 3. Убедитесь, что ваш сервер работает правильно

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...