Я могу извлечь текст, используя BeautifulSoup, но для некоторых HTML-страниц я не могу точно сегментировать текст. Я заинтересован в попытке извлечь текст, используя html2text из HTML-страниц.
Но я не могу найти код для извлечения текста из html-страниц, используя html2text.
Код на странице html2text
документации
import html2text
h = html2text.HTML2Text()
h.ignore_links = True
print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")
Как извлечь текст с веб-страницы? На странице документации нет четкого указания.