Мне нужно получить outerHTML
всех элементов на веб-страницах и сохранить их в поле в SOLR.Если я правильно понял, StormCrawler использует селен для анализа источника веб-страниц.Если так, этот код селена в python дает мне outerHTML
(содержимое страницы с его HTML-тегами):
browser = webdriver.Firefox()
browser.get('https://www.google.com')
all_elements = browser.find_element_by_xpath("//*")
outer_html = search_box.get_attribute('outerHTML')
print(outer_html)
Я пытаюсь сделать то же самое в parsefilters.json
, например, так:
{
"com.digitalpebble.stormcrawler.parse.ParseFilters": [
{
"class": "com.digitalpebble.stormcrawler.parse.filter.XPathFilter",
"name": "XPathFilter",
"params": {
"canonical": "//*[@rel=\"canonical\"]/@href",
"parse.description": [
"//*[@name=\"description\"]/@content",
"//*[@name=\"Description\"]/@content"
],
"parse.title": [
"//TITLE",
"//META[@name=\"title\"]/@content"
],
"parse.keywords": "//META[@name=\"keywords\"]/@content",
"parse.html": "//*/@outerHTML"
}
},
И добавил - parse.html=html
в crawler-conf.yaml , но он всегда ничего не возвращает.Я пробовал с разными элементами, но результат все тот же.Как я могу это исправить и получить источник веб-страницы?