Текстовый майнинг с R_ Я не могу поставить правильные html_nodes - PullRequest
0 голосов
/ 13 октября 2019

Я пытался сканировать этот сайт (https://www1.president.go.kr/petitions/?c=0&only=1&order=1&page=1) с кодом ниже.

# install.packages("rvest")
# install.packages("dplyr")

library(rvest)
library(dplyr)

basic_url <- 'https://www1.president.go.kr/petitions/?c=0&only=1&order=1&page='
urls <- NULL
for(x in 1:10){
  urls[x] <- paste0(basic_url, as.character(x))
}

links <- NULL
for(url in urls){
  html <- read_html(url)
  links <- c(links, html %>% 
    html_nodes('.petition_list') %>% 
    html_nodes('a') %>% 
    html_attr('href') %>%
    unique())
  }

txts <- NULL
for(link in links){
  html <- read_html(link)
  txts <- c(txts, html %>% html_nodes('.article_txt') %>% html_text())
}

write.csv(txts, "text.csv")

Но не сработало.

Я полагаю, я поместил неподходящий веб-тег втам.

html_nodes('.petition_list')

'petition_list' прав?

Что такое правильный тег?

...