Как скрести все полнотекстовые обзоры tripadvisor - PullRequest
0 голосов
/ 22 мая 2019

Я не могу отсканировать все отзывы о конкретном отеле (мне нужны полнотекстовые отзывы).

Я пробовал некоторые функции, такие как ".nav.next" и "jump_to", но по некоторым причинам код не работает. Код следующий:

url <- read_html ("https://www.tripadvisor.com/ShowUserReviews-g297630-d1194844-r675391794-The_Gateway_Hotel_Old_Port_Rd_Mangalore-Mangalore_Dakshina_Kannada_District_Karn.html")

getXreviews10pages <- function(url, X){
   data <- data.frame()
   i = 1
   for(i in 1:X){
     if(i != 1){ # Go to next page but don't skip the first page
       next_URL <- html_nodes(url, ".nav.next") %>%
          html_attr("href")
       url <- jump_to(url, paste0("https://www.tripadvisor.com", next_URL))
     }
     reviewpages <- url %>%
     html_nodes(".is-9 > .prw_reviews_text_summary_hsx .partial_entry") %>%
     print(paste0("Page ", i))
    }
   data
  }

hotels_reviews <- getXreviews10pages(url, 10)

Так что я ожидал, что он покажет все отзывы для первых 10 страниц. Предполагается, что ".nav.next" и jump_to ведут на следующую страницу, а затем на следующую после и очищают все отзывы.

Я не кодер, но мне нужны обзоры для моей магистерской диссертации. Я не мог найти какую-либо помощь онлайн. Заранее благодарю за любые ответы!

...