Когда я пытаюсь открыть папку с файлами HTML, я получил и utf-8 ошибка - PullRequest
0 голосов
/ 03 мая 2019

Я пытаюсь открыть существующую локальную папку ("train") на моем компьютере со списком HTML-файлов. Я хочу преобразовать их в txt и поместить полученные файлы в другую папку с именем "traintxt". Я написал некоторый код, но продолжаю иметь unicodeDecodeError. Как я могу это исправить? и если я не могу, как можно сделать то же самое по-другому?

import glob
import os.path
from bs4 import BeautifulSoup

dir_path = r"/Users/martinagalletti/Desktop/parte 2 data mining/train/student"
results_dir = r"/Users/martinagalletti/Desktop/parte 2 data mining/train/studenttxt"

for file_name in glob.glob(os.path.join(dir_path, "*.html")):
    with open(file_name, encoding='utf-8') as html_file:
        soup = BeautifulSoup(html_file)

results_file = os.path.splitext(file_name)[0] + '.txt'
with open(results_file, 'w') as outfile:        
    for i in soup.select('font[color="#FF0000"]'):
        print(i.text)
        outfile.write(i.text + '\n')
...