Во-первых, вы должны определить, какова действительная кодировка файла, полученного с помощью wget
(или curl
в этом отношении).
Выполнение команды:
grep 'Content-Type' daoshi.html
будет отображаться:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
, где charset=gb2312
означает, что HTML-файл закодирован в Упрощенный китайский (ГБ 2312) .
Затем вы можете использовать команду iconv
для преобразования файла в новую версию UTF-8:
iconv -f gb2312 -t utf-8 daoshi.html >daoshi-utf8.html
Наконец, в зависимости от ваших потребностей, вы можете настроить содержимое тега meta
в начале файла в соответствии с новой кодировкой, используя sed
, например:
sed s/charset=gb2312/charset=utf-8/ daoshi-utf8.html >daoshi-utf8-final.html