Я пытаюсь проанализировать HTML-документ с Beautifulsoup, но у меня возникают проблемы. Как лучше всего открыть HTML-документ в кодировке windows-1252?
Я пытался с помощью iconv конвертировать в utf-8, но это также не работает.
doc = open("e.html").read()
soup = BeautifulSoup(doc)
soup.findAll('p')
UnicodeEncodeError: кодек 'ascii' не может кодировать символ u '\ xfc' в позиции 103: порядковый номер не в диапазоне (128)
Когда я открываю его без иконки, я получаю ту же ошибку.
полный возврат:
>>> soup.findAll('p')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 103: ordinal not in range(128)