Web Scraping нескольких страниц с использованием R - PullRequest
0 голосов
/ 02 мая 2019

Я создал код для сканирования обзоров 4K Smart TV с веб-сайта Walmart. Проблемы, с которыми я столкнулся при сканировании:

1) Во время навигации по страницам я не мог видеть «page_num» для повторения в R

2) Я могу сканировать только обзоры первой страницы, остальные данные в выходных данных дублируются теми же отзывами на первой странице

3) Зацикливание данных не работает зацикливание

Я попробовал два метода и обнаружил, что приведенный выше работает, но не может циклически перемещаться по страницам

library(dplyr)
library(rvest)
library(purrr)

url<- "https://www.walmart.com/reviews/product/709887014")
map_df(1:20,function(i){
  cat(".")
  TV<-read_html(sprintf(url,i))
  data.frame(title=html_text(html_nodes(TV,".review-title")),
             review=html_text(html_nodes(TV,".review-body-text")),
             stars=gsub(" Points", "", html_text(html_nodes(TV,".stars-small"))),
             stringsAsFactors=FALSE)

})->4K_TVreview
dplyr::glimpse(4K_TVreview)

Я ожидаю результатов в 3 столбцах на страницах: заглавие Звезды Отзывы

Пожалуйста, помогите мне, как перемещаться и сканировать данные по страницам, даже если ссылка на источник не изменяется при навигации по страницам.

Цените все ваши усилия.

...