"rvest" не получает информацию о продукте с помощью html_nodes () - PullRequest
0 голосов
/ 30 мая 2020

Я использовал rvest для удаления деталей продукта (названия, цена и доступность) в поиске продуктов amazon результаты . Мне удалось получить веб-страницу с помощью read_html(), но я не могу получить подробную информацию о продукте (названия, цена и наличие). На странице есть тег <span> с классом class = "a-size-medium a-color-base a-text-normal". Я использовал html_nodes("span.a-size-medium a-color-base a-text-normal"), но получил NA.

Вот воспроизводимый код:

library(rvest)
library(xml2)

url <- "https://www.amazon.in/s?k=Smartphone&rh=n%3A1389401031&ref=nb_sb_noss"

page <- read_html(url)

data <- page%>%
  html_node("span.a-size-medium a-color-base a-text-normal") %>%
  html_text()

print(data)

1 Ответ

0 голосов
/ 30 мая 2020

Вам просто нужно немного изменить селектор css. Мне удалось узнать имена и цены, доступность была немного сложнее: /

library(rvest)
library(xml2)

url <- "https://www.amazon.in/s?k=Smartphone&rh=n%3A1389401031&ref=nb_sb_noss"

page <- read_html(url)

name <- page %>% html_nodes(".a-size-medium.a-color-base.a-text-normal") %>% html_text()

price <- page %>% html_nodes(".a-price-whole") %>% html_text()
...