Я пытаюсь использовать urllib и urllib2 для чтения из текстового файла, в котором есть французские символы, такие как «é», «à» и так далее.
def load(url):
from urllib2 import Request, urlopen, URLError, HTTPError
req = Request(url)
f = urlopen(req)
f.readline()
for line in f:
line = line.split('\t')
word = line[0].encode('utf-8')
У меня такое ощущение, что метод read () возвращает мне байтовую строку, поэтому я использую кодирование ('utf-8'), чтобы получить значение Unicode, но это дает мне следующую ошибку
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe8 in position 6: ordinal not in range(128)
Может кто-нибудь сказать мне, что происходит? Любая помощь будет оценена. Спасибо!