Кодировка определяется в самой странице :
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
В общем случае существует 3 способа указать кодировку HTML-страницы HTTP-сервера:
Content-Type заголовок HTTP
Content-Type: text/html; charset=utf-8
Кодирование псевдоатрибута в декларации XML
<?xml version="1.0" encoding="utf-8" ?>
метатег внутри головы
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />
см. Кодировки символов для подробностей
Таким образом, вы должны попытаться оценить каждое возможное объявление, чтобы найти подходящую кодировку. Вы можете попытаться проанализировать страницу с помощью utf-8 и перезапустить ее, если встретите метатег объявления Content-Type.