Веб-очистка итеративно с веб-страницы в R - PullRequest
0 голосов
/ 21 марта 2019

У меня есть веб-страница с таблицей из 243 страниц. Каждая страница имеет 34 строки. Структура url выглядит следующим образом для страницы 1. http://this -site.com / сервис /? Currpage = 1 .

Я хотел бы получить все данные для 243 страниц и сохранить их в одном csv файле.

Пока что код, который я использую на странице, равен

library(XML)
url <- http://this-site.com/service/?currpage=1
service <- as.data.frame(readHTMLTable(url))
head(service)
service <- read_html(url)

Как мне записать число от 1 до 243, чтобы получить все страницы и загрузить их, записать в CSV?

1 Ответ

1 голос
/ 21 марта 2019
library(tidyverse)
library(rvest)

pages <- 1:243
base_url <- "http://this-site.com/service/?currpage="
urls <- paste0(base_url, pages)

get_table <- function(url) {
  url %>%
    read_html() %>%
    html_table() # might not need this???
}

results <- sapply(urls, get_table)

bind_rows(reuslts) %>%
  as_data_frame() %>%
  write_csv(path = "some/path/somwhere")
...