Как мне извлечь весь текст из html, исключая любые CSS и JavaScript?
Я пытаюсь следующий код:
r = requests.get(website) tree = html.fromstring(r.text) html_text = tree.xpath('//text()')
Но он также извлекает все содержимое CSS и Javascript изсайт
Вы можете использовать метод drop_tree() для удаления элементов, которые вам не интересны.
drop_tree()
tree = html.fromstring(r.text) unwanted = tree.xpath('//script|//style') for u in unwanted: u.drop_tree() html_text = tree.xpath('//text()')