Ну, что ты думаешь сломано?
Я получаю ISO-8859-2 для urllib и wget (в настоящее время я нахожусь в Польше). Я получаю UTF-8 с Firefox. Это потому, что мой Firefox сообщает сайту, что он принимает ISO-8859-1 и UTF-8, а wget и urllib2 ничего не говорят. Соответствующий заголовок запроса:
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Извлеките из этого UTF-8, и вы не получите UTF-8, легко тестируемый при помощи telnetting на порт 80.
Google.com просто (и разумно) по умолчанию использует ISO-8859-1, а google.pl - ISO-8859-2, и я уверен, что есть другие настройки по умолчанию для других сайтов.
Я не получаю заголовок кодирования ни для wget, urllib2, ни для telnet, я полагаю, что urllib2 тогда принимает 7bit, и это может быть немного бессмысленно, поскольку Content-Encoding обычно имеет тип gzip или ничего.