Как очистить id от каждого класса div в rvest? - PullRequest
0 голосов
/ 26 августа 2018

Каждое div.grpl-grp clearfix (каждый элемент клуба) на этой странице имеет свой идентификатор:

https://uws -community.symplicity.com / index.php? S = student_group

Я пытаюсь очистить каждый из этих идентификаторов, однако мой текущий метод, как показано ниже, не работает. Что я делаю не так?

url <- 'https://uws-community.symplicity.com/index.php?s=student_group'
page <- html_session(url)

id_nodes <- html_nodes(page, "div.grpl-grp clearfix") %>% html_attrs("id")

1 Ответ

0 голосов
/ 26 августа 2018

Попробуйте XPath вместо:

library(magrittr)
library(rvest)

doc <- read_html("https://uws-community.symplicity.com/index.php?s=student_group")

html_nodes(doc, xpath=".//div[contains(@class, 'grpl-grp') and contains(@class, 'clearfix')]") %>% 
  html_attr("id")
##  [1] "grpl_5bf9ea61bc46eaeff075cf8043c27c92" "grpl_17e4ea613be85fe019efcf728fb6361d"
##  [3] "grpl_d593eb48fe26d58f616515366a1e677b" "grpl_5b445690da34b7cff962ee2bf254db9e"
##  [5] "grpl_cd1ebcef22852bdb5301a243803a2909" "grpl_0a7da33f968a919ecfa06486f0787bc7"
##  [7] "grpl_a6a6cbf50b45d1ef05f8965c69f462de" "grpl_3fed7efb36173632ae2eef14393f37fc"
##  [9] "grpl_f4e1e263109725bd4f99db9f70552b65" "grpl_2be038a5d159bf753fceb26cfdf596c2"
## [11] "grpl_918f9dec53fe5d36c1f98f5136f2ae7d" "grpl_f365b501f1e9833ca0cf8c504e37d11c"
## [13] "grpl_2f302fcce440ec1463beb73c6d7af070" "grpl_26b6771768df4a002e44ad6ec01fa36d"
## [15] "grpl_5e260344fd093628f3326a162996513a" "grpl_3604e5b44c0428dfc982c1bfc852fef2"
## [17] "grpl_9ab9bced3514bd8b2e0e18da8a3c7977" "grpl_6364bed0a4d3f45cd5b1fc929e320cb3"
## [19] "grpl_ba21e3c819afe6a32110585ac379f5d9" "grpl_9964a3732044fceffb4dc9b5645856ba"
...