Добавление html_attr в функцию очистки нескольких URL-адресов с помощью rvest - PullRequest
0 голосов
/ 03 августа 2020

Я хотел бы добавить ссылки на отдельные петиции в фрейм данных, используя приведенную ниже функцию scrape_change_page, но я не уверен, как настроить включение функции html_attr, которая будет очищать URL-ссылки с нескольких страниц. Любые мысли очень приветствуются!

library(pacman)
pacman::p_load(rvest, dplyr, stringr, purrr, lubridate, tibble, tidyr, stringi, stringr)

url <- 'https://www.change.org/search?q=ppe'

scrape_change_page <- function(url)
{
  webpage  <- xml2::read_html(url)
  
  get_text <- function(css) 
  {
    vec <- rvest::html_text(rvest::html_nodes(webpage, css), trim = TRUE)
    if(length(vec) < 10) c(vec, rep("", 10 - length(vec))) else vec
  }
  
  dplyr::tibble(
    title         = get_text('.xs-mbs'),
    date          = gsub("Created", "", get_text('.symbol-clock+ span')),
    supporters    = gsub(" supporters", "", get_text('.symbol-supporters+ span')),
    addressee     = gsub("Petition to ", "", get_text('.xs-mbn .type-s')),
    location      = get_text('.plxxs'),
    )
}

scrape_change_page(url)

#select number of pages(test on 3 pages)
n_pages <- 3
urls    <- paste0(url, "&offset=", 10 * (seq(n_pages)) - 1)
result  <- do.call(rbind, lapply(urls, scrape_change_page))

Вот базовый c html_attr, который очищает ссылки:

page <- read_html("https://www.change.org/search?q=ppe")
page %>%
  html_nodes(".search-results .list-rule") %>%
  html_nodes("a") %>% 
  html_attr("href")

1 Ответ

0 голосов
/ 06 августа 2020

Разобрался обновив функцию. Обновленный код ниже.

scrape_change_page <- function(url)
    {
      webpage  <- xml2::read_html(url)
      
      get_text <- function(css) 
      {
        vec <- rvest::html_text(rvest::html_nodes(webpage, css), trim = TRUE)
        if(length(vec) < 10) c(vec, rep("", 10 - length(vec))) else vec
      }
    
      get_attr <- function(css, attr)
      {
        vec <- rvest::html_attr(rvest::html_nodes(webpage, css), attr)
        if(length(vec) < 10) c(vec, rep("", 10 - length(vec))) else vec
      }
      
      dplyr::tibble(
        title         = get_text('.xs-mbs'),
        date          = gsub("Created", "", get_text('.symbol-clock+ span')),
        supporters    = gsub(" supporters", "", get_text('.symbol-supporters+ span')),
        addressee     = gsub("Petition to ", "", get_text('.xs-mbn .type-s')),
        location      = get_text('.plxxs'),
        link          = get_attr('.search-results .list-rule a.link-block.js-click-search-result', 'href')
        )
    }
...