Я пытаюсь открыть существующую локальную папку ("train"
) на моем компьютере со списком HTML-файлов. Я хочу преобразовать их в txt и поместить полученные файлы в другую папку с именем "traintxt"
. Я написал некоторый код, но продолжаю иметь unicodeDecodeError
. Как я могу это исправить? и если я не могу, как можно сделать то же самое по-другому?
import glob
import os.path
from bs4 import BeautifulSoup
dir_path = r"/Users/martinagalletti/Desktop/parte 2 data mining/train/student"
results_dir = r"/Users/martinagalletti/Desktop/parte 2 data mining/train/studenttxt"
for file_name in glob.glob(os.path.join(dir_path, "*.html")):
with open(file_name, encoding='utf-8') as html_file:
soup = BeautifulSoup(html_file)
results_file = os.path.splitext(file_name)[0] + '.txt'
with open(results_file, 'w') as outfile:
for i in soup.select('font[color="#FF0000"]'):
print(i.text)
outfile.write(i.text + '\n')