Я хочу извлечь только текст из html, но когда я использую функцию html2text, я получаю ошибку вывода - PullRequest
0 голосов
/ 28 мая 2020

this is error output

import urllib.request
import requests
from bs4 import BeautifulSoup
import html2text

with open('crawlingweb.csv')as f:
    content=f.readlines()
    content=[x.strip()for x in content]

for i in range(125):
    url=content[i]
    req=requests.get(url)
    html=req.text
    raw=html2text.html2text(html)
    print(raw)

Есть ли способ исправить ошибку вывода при использовании функции html2text?

1 Ответ

0 голосов
/ 28 мая 2020

Попробуйте интерпретировать полученный текст как строку UTF-8:

raw=html2text.html2text(html)
utf8_text=raw.encode('utf-8')
print(utf8_text)
...