Я пытаюсь прочитать большой набор .htm
файлов с помощью Python.Для этого я использую следующее:
HtmlFile = codecs.open(file, 'r')
text = BeautifulSoup(HtmlFile.read()).text
Однако это приводит к следующей ошибке:
UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 411:
character maps to <undefined>
Итак, я попытался кодировать с помощью utf-8
, например так:
HtmlFile = codecs.open(file, 'r', encoding='utf-8')
text = BeautifulSoup(HtmlFile.read()).text
А потом я получил эту ошибку:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 4565:
invalid start byte
Я пытался следовать совету здесь , но это не помогало.Любая помощь будет принята с благодарностью!