У меня есть список URL-адресов, и я пытаюсь очистить их содержимое для моего исследования в R. Я очищаю весь контент, используя read_ html в для l oop. Проблема в том, что мне нужно войти в газету, чтобы очистить содержимое. Поэтому я пытаюсь войти в систему с помощью своего идентификатора и пароля, чтобы можно было просматривать содержимое новостей и дату для каждого URL-адреса, найденного в результате поиска.
Могу ли я как-то записать информацию для входа в систему для пользователя l? oop для доступа к содержанию новостных статей?
library(rvest)
library(stringr)
library(purrr)
library(readbulk)
library(dplyr)
#Read URLs
urls <- read_bulk("C:/Users/XXXX", extension = ".csv") %>%
dplyr::distinct(link) #removing dublicates
#For Loop
titles <- c()
text <- c()
url <- c()
date <- c()
for(i in 1:nrow(urls)){
data <- read_html(paste0(urls$link[i]))
body <- data %>%
html_nodes("p") %>%
html_text() %>%
str_c(collapse = " ", sep = "")
text = append(text, body)
data <- read_html(paste0(urls$link[i]))
header <- data %>%
html_node("title") %>%
html_text()
titles = append(titles, rep(header,each=length(body)))
data <- read_html(paste0(urls$link[i]))
time <- data %>%
html_nodes("time") %>% #See HTML source code for data within this tag
html_text() %>%
str_c(collapse = " ", sep = "")
date = append(date, rep(time,each=length(time)))
url = append(url, rep(paste0(urls$link[i]),each=length(body)))
print(i)
}
data <- data.frame(Headline=titles, Body=text, Date=date, Url=url) # As Dataframe