Я пытаюсь прочитать некоторые файлы utf-8 по адресам, приведенным в коде ниже. Это работает для большинства из них, но для некоторых файлов urllib2 (и urllib) не может прочитать.
Очевидный ответ здесь заключается в том, что второй файл поврежден, но странно то, что IE читает их оба без проблем. Код был протестирован как на XP, так и на Linux, с одинаковыми результатами. Любые предложения?
import urllib2
#This works:
f=urllib2.urlopen("http://www.gutenberg.org/cache/epub/145/pg145.txt")
line=f.readline()
print "this works: %s)" %(line)
line=unicode(line,'utf-8') #... works fine
#This doesn't
f=urllib2.urlopen("http://www.gutenberg.org/cache/epub/144/pg144.txt")
line=f.readline()
print "this doesn't: %s)" %(line)
line=unicode(line,'utf-8')#...causes an exception: