Как извлечь текст из HTML-страниц, используя html2text - PullRequest
0 голосов
/ 08 мая 2019

Я могу извлечь текст, используя BeautifulSoup, но для некоторых HTML-страниц я не могу точно сегментировать текст. Я заинтересован в попытке извлечь текст, используя html2text из HTML-страниц.

Но я не могу найти код для извлечения текста из html-страниц, используя html2text.

Код на странице html2text документации

import html2text
h = html2text.HTML2Text()
h.ignore_links = True
print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")

Как извлечь текст с веб-страницы? На странице документации нет четкого указания.

...