У меня есть несколько локальных HTML файлов, и мне нужно извлечь из него некоторые элементы. Я привык писать Scrapy и извлекать элементы, используя встроенные селекторы с xpath
и css
и .extract()
и .extract_first()
.
. Есть ли библиотека, которая может сделать это?
Я проверил BeautifulSoup
и lxml
, но их синтаксис отличается от Scrapy
.
Например, я хотел бы сделать что-то вроде этого:
sample_file = "../raw_html_text/sample.html"
with open(sample_file, 'r', encoding='utf-8-sig', newline='') as f:
page = f.read()
html_object = # convert string to html or something
print(html_object.css("h2 ::text").extract_first())