Ошибка с rvest - NA введены по принуждению (xpath & css) - PullRequest
0 голосов
/ 06 марта 2019

Я пытаюсь очистить веб-сайт и собрать ежедневные цены на различные предметы одежды в течение длительного периода. Я следовал учебному пособию в блоге RStudio, но не могу воспроизвести идею в наборе тестов, несмотря на использование SelectorGadget. Я пробовал следующий код до сих пор получают NA:

url<- "https://www.zara.com/us/en/authentic-jeans-p00840407.html?v1=9035594&v2=1204074"

    jeans <- url %>%
      read_html() %>%
      html_nodes(".description , .product-price span") %>%
      html_text() %>%
      as.numeric()

Я также пытаюсь использовать формат xpath, но все еще не повезло:

jeans <- url %>%
  read_html() %>%
  html_nodes(xpath = '//*[contains(concat( " ", @class, " " ), concat( " ", "product-price", " " ))]') %>%
  html_text() %>%
  as.numeric()

Я был бы очень признателен за любую информацию, которой вы могли бы поделиться - и был бы действительно признателен, если бы вы указали какие-либо ресурсы, в которых подробно описывается, как со временем создавать базу данных на основе извлеченных данных / или как пакетировать rvest webscrape запросы!

Спасибо!

...