Веб-сканирование тегов <dl><dt> <dd>html с использованием RVEST - PullRequest
0 голосов
/ 06 мая 2020

Я пытаюсь очистить некоторые данные, используя Rvest из объявлений о подержанных автомобилях. Однако мне не удается очистить данные, входящие в состав тегов

или
html, с помощью функции html_nodes ().

Более конкретно, я хотел бы очистить особенности изображения ниже следующего автомобильного объявления во фрейме данных. https://www.autoscout24.be/nl/aanbod/mercedes-benz-slk-200-benzine-grijs-e77f7a3e-76b1-4676-88a0-b52c9574068a?cldtidx=3&cldtsrc=listPage

введите описание изображения здесь

Кто-нибудь может мне помочь, пожалуйста?

Спасибо! Арне

1 Ответ

0 голосов
/ 08 мая 2020

Это (и еще несколько комбинаций - методом проб и ошибок) я уже пробовал. Я хотел бы иметь фрейм данных, где тег

является ключом, а тег - значением
install.packages("rvest")    
library(rvest)

autoscout_mercedes <- read_html("https://www.autoscout24.be/nl/lst/mercedes-benz?sort=standard&desc=0&ustate=N%2CU&cy=B&atype=C")

features <- autoscout_mercedes %>%    
      html_nodes("div.sc-ellipsis") %>%    
      html_nodes("a") %>%    
      html_attr("href")    

features

Я также включил экран печати сценария html. введите описание изображения здесь

...