Я строю простой скребок в R, который обрабатывает нумерацию страниц.Я попытался использовать paste0 для циклического перемещения по структуре разбитого на страницы URL-адреса.
#a vector of the urls to scrape
a <- 1:5
URLs <- function(pages) {
out <- matrix(ncol = 1, nrow = 5)
for (i in seq_along(a)) {
fdata <- paste0("https://foo.bar", i, "/")
out[, i] <- apply(fdata)
}}
df <- lapply(URLs, function(u){
html.obj <- read_html(u)
title <- html.obj %>% html_nodes('a.storylink') %>% html_text()
score <- html.obj %>% html_nodes('span.score') %>% html_text()
data.frame(title = title, score = score)
})
library(reshape)
data <- merge_recurse(df)
View(data)
Однако, когда я пытаюсь это сделать, вывод не заполняет должным образом переменную URL-адресов, и поэтому остальная часть сбора зацикленных данныхне выполняется вообще.
Я не смог найти здесь других вопросов, которые касались бы циклического прохождения через составные элементы, подобные этому.
Может кто-нибудь дать представление о том, куда я идунеправильно?