redunicorn 17 октября 2019 55

Как извлечь весь текст из HTML, кроме CSS и JavaScript с помощью LXML в Python?

redunicorn / 17 октября 2019

Как мне извлечь весь текст из html, исключая любые CSS и JavaScript?

Я пытаюсь следующий код:

r = requests.get(website)
tree = html.fromstring(r.text)
html_text = tree.xpath('//text()')

Но он также извлекает все содержимое CSS и Javascript изсайт

1 Ответ

mzjn / 18 октября 2019

Вы можете использовать метод drop_tree() для удаления элементов, которые вам не интересны.

tree = html.fromstring(r.text)

unwanted = tree.xpath('//script|//style')
for u in unwanted:
    u.drop_tree()

html_text = tree.xpath('//text()')

...