Прежде всего, распараллеливание - это процедура разделения задачи на подзадачи, которые одновременно обрабатываются несколькими процессорами или ядрами и могут быть независимыми или разделять некоторую зависимость между ними - последний случай требует большего планирования и внимания.
Эта процедура имеет некоторые накладные расходы для планирования подзадач - например, копирование данных на каждый процессор.При этом распараллеливание бесполезно для быстрых вычислений.В вашем примере тремя основными процедурами являются индексирование ([
), присваивание (<-
) и (быстрая) математическая операция (^
).Накладные расходы для параллелизации могут быть больше, чем время выполнения подзадачи, поэтому в этом случае распараллеливание может привести к снижению производительности!
Несмотря на это, простое распараллеливание в R довольно легко.Ниже представлен подход к распараллеливанию вашей задачи с использованием пакета doParallel .Другие подходы включают использование пакетов как параллельный .
library(doParallel)
## choose number of processors/cores
cl <- makeCluster(2)
registerDoParallel(cl)
## register elapsed time to evaluate code snippet
## %dopar% execute code in parallale
B <- 100000; n <- 300000
ptime <- system.time({
M1=list()
foreach(i=1:B) %dopar% {
M1[i]=(n^2)
}
})
## %do% execute sequentially
stime <- system.time({
M1=list()
foreach(i=1:B) %do% {
M1[i]=(n^2)
}
})
. Прошедшее время на моем компьютере (2 ядра) составляло 59,472 и 44,932 соответственно.Понятно, что при распараллеливании улучшений не было: действительно, производительность была хуже!
Ниже показан лучший пример, где основная задача намного дороже с точки зрения вычислительных потребностей:
x <- iris[which(iris[,5] != "setosa"), c(1,5)]
trials <- 10000
ptime <- system.time({
r <- foreach(icount(trials), .combine=cbind) %dopar% {
ind <- sample(100, 100, replace=TRUE)
result1 <- glm(x[ind,2]~x[ind,1], family=binomial(logit))
coefficients(result1)
}
})
stime <- system.time({
r <- foreach(icount(trials), .combine=cbind) %do% {
ind <- sample(100, 100, replace=TRUE)
result1 <- glm(x[ind,2]~x[ind,1], family=binomial(logit))
coefficients(result1)
}
})
И прошедшие времена были 24,709 и 34,502: увеличение на 28%.