Как перейти по ссылке элемента с определенным идентификатором в rvest? - PullRequest
0 голосов
/ 27 августа 2018

Я в данный момент работаю над этим сайтом:

https://uws -community.symplicity.com / index.php? S = student_group

, поэтому каждый клуб нау сайта есть определенный идентификатор, а также есть ссылка «больше информации».Я уже нашел способ очистить каждый идентификатор из класса div.grpl-grp.clearfix, но я хотел бы использовать идентификаторы для очистки данных из ссылки «дополнительная информация» (например, ссылка fb) из элементас этим определенным идентификатором.

Какой синтаксис используется для этого?

1 Ответ

0 голосов
/ 27 августа 2018

Текст «Дополнительная информация» имеет класс «grpl-moreinfo», и ссылка находится в теге <a>.Таким образом, мы можем сделать

library(rvest)

url <- 'https://uws-community.symplicity.com/index.php?s=student_group'
page <- html_session(url)
html_nodes(page, "li.grpl-moreinfo a") %>% html_attr("href")

#[1] "?mode=form&id=5bf9ea61bc46eaeff075cf8043c27c92&tab=profile"
#[2] "?mode=form&id=17e4ea613be85fe019efcf728fb6361d&tab=profile"
#[3] "?mode=form&id=d593eb48fe26d58f616515366a1e677b&tab=profile"
...

, что также можно сделать за одну цепочку:

url %>%
  read_html() %>%
  html_nodes("li.grpl-moreinfo a") %>%
  html_attr("href")

#[1] "?mode=form&id=5bf9ea61bc46eaeff075cf8043c27c92&tab=profile"
#[2] "?mode=form&id=17e4ea613be85fe019efcf728fb6361d&tab=profile"
#[3] "?mode=form&id=d593eb48fe26d58f616515366a1e677b&tab=profile"
...
...