Question

Я могу извлечь текст, используя BeautifulSoup, но для некоторых HTML-страниц я не могу точно сегментировать текст. Я заинтересован в попытке извлечь текст, используя html2text из HTML-страниц.

Но я не могу найти код для извлечения текста из html-страниц, используя html2text.

Код на странице html2text документации

import html2text
h = html2text.HTML2Text()
h.ignore_links = True
print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")

Как извлечь текст с веб-страницы? На странице документации нет четкого указания.

Как извлечь текст из HTML-страниц, используя html2text

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как извлечь текст из HTML-страниц, используя html2text

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы