Я создал код для сканирования обзоров 4K Smart TV с веб-сайта Walmart. Проблемы, с которыми я столкнулся при сканировании:
1) Во время навигации по страницам я не мог видеть «page_num» для повторения в R
2) Я могу сканировать только обзоры первой страницы, остальные данные в выходных данных дублируются теми же отзывами на первой странице
3) Зацикливание данных не работает зацикливание
Я попробовал два метода и обнаружил, что приведенный выше работает, но не может циклически перемещаться по страницам
library(dplyr)
library(rvest)
library(purrr)
url<- "https://www.walmart.com/reviews/product/709887014")
map_df(1:20,function(i){
cat(".")
TV<-read_html(sprintf(url,i))
data.frame(title=html_text(html_nodes(TV,".review-title")),
review=html_text(html_nodes(TV,".review-body-text")),
stars=gsub(" Points", "", html_text(html_nodes(TV,".stars-small"))),
stringsAsFactors=FALSE)
})->4K_TVreview
dplyr::glimpse(4K_TVreview)
Я ожидаю результатов в 3 столбцах на страницах:
заглавие
Звезды
Отзывы
Пожалуйста, помогите мне, как перемещаться и сканировать данные по страницам, даже если ссылка на источник не изменяется при навигации по страницам.
Цените все ваши усилия.