Это занимает очень много времени, так как readlines должен идти в цикле и индивидуально.Не могли бы вы помочь распараллелить readlines и rbind?
Пожалуйста, не стесняйтесь улучшить это.
Цикл должен пройти более 40 000 ссылок
Код:
library(tidyverse)
library(tidytext)
my_data2 <-c()
urls=readLines("InputLinks.csv")
for ( url in urls) {
valid_url <- TRUE
tryCatch({my_data =
readLines(str_c("http://https://www.google.co.in/search?q=",url,collapse=''))}, error=function(e) valid_url <<- FALSE)
#the above link is just a sample , I will be doing this in my internal website which will look like this - website+URL+other paramaters
if (!valid_url){
next}
my_data <- data_frame(document = url, text = my_data)
my_data2<-rbind(my_data2,my_data)
}
my_data<-my_data2
my_data1 <- my_data %>%
unnest %>%
unnest_tokens(word, text, strip_numeric = TRUE) %>%
group_by(document, word) %>%
summarise(count = n())