У меня есть таблица данных 6,5 Гб.Я хотел бы сделать несколько параллельных вычислений в цикле с ParLapply
(например, выполнение регрессий).В настоящий момент, когда я пытаюсь clusterExport
в параллельном пакете, это занимает много времени (я никогда не видел, чтобы он заканчивал его экспортировать).
У меня 16 ядер и 64 ГБ оперативной памяти.Это нормально?Как я мог ускорить экспорт большой таблицы данных?
num_cores = (detectCores(all.tests = FALSE, logical = TRUE) - 2)
workers <- parallel::makePSOCKcluster(num_cores, useXDR=F)
for(pck_name in required.pck){
clusterExport(workers, c("pck_name"), envir = environment())
clusterEvalQ(workers, library(pck_name, character.only=TRUE))
}
# Bit that freezes up
clusterExport(workers, varlist = c("big_data_table"), envir
= environment())