Как получить externalHTML в StormCrawler? - PullRequest
0 голосов
/ 24 сентября 2019

Мне нужно получить outerHTML всех элементов на веб-страницах и сохранить их в поле в SOLR.Если я правильно понял, StormCrawler использует селен для анализа источника веб-страниц.Если так, этот код селена в python дает мне outerHTML (содержимое страницы с его HTML-тегами):

browser = webdriver.Firefox()
browser.get('https://www.google.com')
all_elements = browser.find_element_by_xpath("//*")
outer_html = search_box.get_attribute('outerHTML')
print(outer_html)

Я пытаюсь сделать то же самое в parsefilters.json, например, так:

{
  "com.digitalpebble.stormcrawler.parse.ParseFilters": [
    {
      "class": "com.digitalpebble.stormcrawler.parse.filter.XPathFilter",
      "name": "XPathFilter",
      "params": {
        "canonical": "//*[@rel=\"canonical\"]/@href",
        "parse.description": [
            "//*[@name=\"description\"]/@content",
            "//*[@name=\"Description\"]/@content"
         ],
        "parse.title": [
            "//TITLE",
            "//META[@name=\"title\"]/@content"
         ],
         "parse.keywords": "//META[@name=\"keywords\"]/@content",
         "parse.html": "//*/@outerHTML"
      }
    },

И добавил - parse.html=html в crawler-conf.yaml , но он всегда ничего не возвращает.Я пробовал с разными элементами, но результат все тот же.Как я могу это исправить и получить источник веб-страницы?

...