Я хотел бы добавить ссылки на отдельные петиции в фрейм данных, используя приведенную ниже функцию scrape_change_page, но я не уверен, как настроить включение функции html_attr, которая будет очищать URL-ссылки с нескольких страниц. Любые мысли очень приветствуются!
library(pacman)
pacman::p_load(rvest, dplyr, stringr, purrr, lubridate, tibble, tidyr, stringi, stringr)
url <- 'https://www.change.org/search?q=ppe'
scrape_change_page <- function(url)
{
webpage <- xml2::read_html(url)
get_text <- function(css)
{
vec <- rvest::html_text(rvest::html_nodes(webpage, css), trim = TRUE)
if(length(vec) < 10) c(vec, rep("", 10 - length(vec))) else vec
}
dplyr::tibble(
title = get_text('.xs-mbs'),
date = gsub("Created", "", get_text('.symbol-clock+ span')),
supporters = gsub(" supporters", "", get_text('.symbol-supporters+ span')),
addressee = gsub("Petition to ", "", get_text('.xs-mbn .type-s')),
location = get_text('.plxxs'),
)
}
scrape_change_page(url)
#select number of pages(test on 3 pages)
n_pages <- 3
urls <- paste0(url, "&offset=", 10 * (seq(n_pages)) - 1)
result <- do.call(rbind, lapply(urls, scrape_change_page))
Вот базовый c html_attr, который очищает ссылки:
page <- read_html("https://www.change.org/search?q=ppe")
page %>%
html_nodes(".search-results .list-rule") %>%
html_nodes("a") %>%
html_attr("href")