У меня есть список из более чем 1 миллиона строк URL, которые я собираюсь очистить, и я делаю это параллельно. Однако для запуска требуется больше времени, чем ожидалось. Итак, я думаю разбить его на несколько циклов и выводить результаты каждые 20000 строк, а также распечатывать время, необходимое для выполнения каждого цикла. Возможно ли это сделать?
Я создал функцию очистки под названием URL_Scrape
, а список URL-адресов называется URLs_List
Вот мой код для параллельной очистки
no_cores <- detectCores()-1
cl <- makeCluster(no_cores)
clusterEvalQ(cl, library(Rcrawler))
system.time({
Result <- parLapply(cl, URLs_List, URL_Scrape)
})
stopCluster(cl)
Любой совет с благодарностью.