В настоящее время я пытаюсь извлечь href (электронные письма) из файлов HTML, предоставленных клиентом моей компании. Они отправили мне данные за 6 месяцев, но я не могу извлечь электронные письма из двух конкретных файлов. Я продолжаю получать одно и то же UnicodeDecodeError каждый раз, независимо от того, что я пытаюсь. Согласно моему анализу, эти файлы кодируются в формате «utf-8». Я оставлю код ниже:
from bs4 import BeautifulSoup as bsoup
url = r"C:\Users\Maximiliano\Documents\enero.html"
soup = bsoup((open(url).read()))
data = []
for p in soup.find_all("a"):
datos = p.get("href")
if datos[0] != "m":
pass
else:
data.append(datos)
print(data)
Я уже пытался добавить ".decode (" utf-8 ") после чтения, но он ничего не делает. Пожалуйста, помогите мне!
файл: https://gofile.io/?c=SFM1T3