Я пытался сканировать этот сайт (https://www1.president.go.kr/petitions/?c=0&only=1&order=1&page=1) с кодом ниже.
# install.packages("rvest")
# install.packages("dplyr")
library(rvest)
library(dplyr)
basic_url <- 'https://www1.president.go.kr/petitions/?c=0&only=1&order=1&page='
urls <- NULL
for(x in 1:10){
urls[x] <- paste0(basic_url, as.character(x))
}
links <- NULL
for(url in urls){
html <- read_html(url)
links <- c(links, html %>%
html_nodes('.petition_list') %>%
html_nodes('a') %>%
html_attr('href') %>%
unique())
}
txts <- NULL
for(link in links){
html <- read_html(link)
txts <- c(txts, html %>% html_nodes('.article_txt') %>% html_text())
}
write.csv(txts, "text.csv")
Но не сработало.
Я полагаю, я поместил неподходящий веб-тег втам.
html_nodes('.petition_list')
'petition_list' прав?
Что такое правильный тег?