Нажмите кнопку RSelenium Amazon Page Turn - PullRequest
0 голосов
/ 09 сентября 2018

Я не могу заставить Rselenium перевернуть страницу в разделе обзора Amazon, который я пытаюсь очистить. Ниже мой код. Я перепробовал почти все возможные комбинации CSS и xpath. Есть мысли?

       replicate(100,
          {
remDr$navigate("https://www.amazon.com/Eagles-Nest-Outfitters-DoubleNest-Portable/product-reviews/B00K30GXK8/ref=cm_cr_dp_d_show_all_btm?ie=UTF8&reviewerType=all_reviewshttps://www.amazon.com/Eagles-Nest-Outfitters-DoubleNest-Portable/product-reviews/B00K30GXK8/ref=cm_cr_dp_d_show_all_btm?ie=UTF8&reviewerType=all_reviews")
webElem <- remDr$findElement("css", "body")
webElem$sendKeysToElement(list(key = "end"))
morereviews <- remDr$findElement(using = 'css selector', ".a-last a")
morereviews$clickElement()
Sys.sleep(4)

reviews <- xml2::read_html(remDr$getPageSource()[[1]])%>%
  rvest::html_nodes(".review-text")%>%
  dplyr::data_frame(reviews = .)
})

1 Ответ

0 голосов
/ 09 сентября 2018

В этом случае вам не нужно использовать RSelenium, а только rvest. Во-первых, вы можете просмотреть отзывы на одной из этих страниц, читая html напрямую. Во-вторых, обратите внимание, что каждый раз, когда вы переворачиваете страницу в разделе «Отзывы», URL-адрес также изменяется (на самом деле, он указывает номер страницы, которую вы видите). Таким образом, вы можете использовать цикл, где вы измените URL и очистите все отзывы:

reviews <- lapply(1:100,
       function(i){
         url <- paste0("https://www.amazon.com/Eagles-Nest-Outfitters-DoubleNest-Portable/product-reviews/B00K30GXK8/ref=cm_cr_getr_d_paging_btm_next_",i,"?ie=UTF8&reviewerType=all_reviewshttps%3A%2F%2Fwww.amazon.com%2FEagles-Nest-Outfitters-DoubleNest-Portable%2Fproduct-reviews%2FB00K30GXK8%2Fref%3Dcm_cr_dp_d_show_all_btm%3Fie%3DUTF8&reviewerType=all_reviews&pageNumber=",i)
         xml2::read_html(url) %>%
           rvest::html_nodes(".review-text") %>%
           rvest::html_text() %>%
           dplyr::data_frame(reviews = .)
       })
(reviews <- do.call("rbind", reviews))
...