Question

Это занимает очень много времени, так как readlines должен идти в цикле и индивидуально.Не могли бы вы помочь распараллелить readlines и rbind?

Пожалуйста, не стесняйтесь улучшить это.

Цикл должен пройти более 40 000 ссылок

Код:

library(tidyverse)
library(tidytext)
my_data2 <-c()
urls=readLines("InputLinks.csv")

for ( url in urls) {
valid_url <- TRUE
tryCatch({my_data = 
readLines(str_c("http://https://www.google.co.in/search?q=",url,collapse=''))}, error=function(e) valid_url <<- FALSE)
#the above link is just a sample , I will be doing this in my internal website which will look like this - website+URL+other paramaters


if (!valid_url){ 
next}
my_data <- data_frame(document = url, text = my_data)
my_data2<-rbind(my_data2,my_data)
}
my_data<-my_data2
my_data1 <- my_data %>% 
unnest %>% 
unnest_tokens(word, text, strip_numeric = TRUE) %>%  
group_by(document, word) %>% 
summarise(count = n())

Можем ли мы сделать параллельную обработку для readlines и rbind

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Можем ли мы сделать параллельную обработку для readlines и rbind

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов