Очистка веб-страниц с использованием rvest: неразличимые селекторы CSS не позволяют мне удалять некоторые блоки - PullRequest
0 голосов
/ 13 февраля 2020

Я использую инструмент SelectorGadget для определения CSS селекторов для некоторого кода rvest, который должен извлекать объекты недвижимости, удобства и типы комнат со страницы на TripAdvisor. Следующий код очищает как выделенные, так и невыделенные объекты недвижимости. К сожалению, я не могу сделать то же самое для удобств и типов номеров.

library(rvest)
hotel_url="https://www.tripadvisor.com/Hotel_Review-g187791-d13494726-Reviews-Palazzo_Caruso-Rome_Lazio.html"
hotel<-hotel_url%>%read_html()
property_amenities<-hotel%>%
    html_node(".hotels-hr-about-amenities-AmenityGroup__amenitiesList--3MdFn")%>%
    html_children()
property_amenities_highlighted<-amenities[1:(length(amenities)-1)] %>% html_text()
property_amenities_unhighlighted<-amenities[length(amenities)] %>% html_children() %>% html_text()

К сожалению, я не нашел отдельного селектора CSS, отвечающего за характеристики номеров и типы номеров. Как мы можем извлечь элементы комнаты и типы комнат либо в отдельные списки, либо в тот же список, что и property_aferences (так как они все равно будут закодированы в двоичном коде позже).

...