R-код для входа в онлайн-газету во время очистки URL-адресов? - PullRequest
2 голосов
/ 25 марта 2020

У меня есть список URL-адресов, и я пытаюсь очистить их содержимое для моего исследования в R. Я очищаю весь контент, используя read_ html в для l oop. Проблема в том, что мне нужно войти в газету, чтобы очистить содержимое. Поэтому я пытаюсь войти в систему с помощью своего идентификатора и пароля, чтобы можно было просматривать содержимое новостей и дату для каждого URL-адреса, найденного в результате поиска.

Могу ли я как-то записать информацию для входа в систему для пользователя l? oop для доступа к содержанию новостных статей?

library(rvest)
library(stringr)
library(purrr)
library(readbulk)
library(dplyr)

#Read URLs
urls <- read_bulk("C:/Users/XXXX", extension = ".csv") %>%
   dplyr::distinct(link) #removing dublicates

#For Loop
titles <- c()
text <- c()
url <- c()
date <- c()

for(i in 1:nrow(urls)){ 
  data <- read_html(paste0(urls$link[i]))
  body <- data %>%
    html_nodes("p") %>%
    html_text() %>%
    str_c(collapse = " ", sep = "")
  text = append(text, body)

  data <- read_html(paste0(urls$link[i]))
  header <- data %>%
    html_node("title") %>%
    html_text()
  titles = append(titles, rep(header,each=length(body)))

  data <- read_html(paste0(urls$link[i]))
  time <- data %>%
    html_nodes("time") %>% #See HTML source code for data within this tag
    html_text() %>%
    str_c(collapse = " ", sep = "")
  date = append(date, rep(time,each=length(time)))

  url = append(url, rep(paste0(urls$link[i]),each=length(body)))

  print(i)
}


data <- data.frame(Headline=titles, Body=text, Date=date, Url=url) # As Dataframe
...