Пример параллельной обработки в R - PullRequest
0 голосов
/ 07 октября 2018

Во-первых, я хотел бы сказать, что я новичок в этой теме.

Во-вторых, хотя я много читал о параллельной обработке в R, я все еще не уверен в этом.

Я только что изобрел симуляцию в R. Так кто-нибудь может мне помочь с этим изобретенным кодом , чтобы понять Параллельную обработку ?(Я вижу, как это работает)

Мой код выглядит следующим образом (Большие случайные числа)

SimulateFn<-function(B,n){ 
  M1=list()
  for (i in 1:B){
    M1[i]=(n^2)}
  return(M1)}

SimulateFn(100000000,300000)

Не могли бы вы мне помочь?

1 Ответ

0 голосов
/ 07 октября 2018

Прежде всего, распараллеливание - это процедура разделения задачи на подзадачи, которые одновременно обрабатываются несколькими процессорами или ядрами и могут быть независимыми или разделять некоторую зависимость между ними - последний случай требует большего планирования и внимания.

Эта процедура имеет некоторые накладные расходы для планирования подзадач - например, копирование данных на каждый процессор.При этом распараллеливание бесполезно для быстрых вычислений.В вашем примере тремя основными процедурами являются индексирование ([), присваивание (<-) и (быстрая) математическая операция (^).Накладные расходы для параллелизации могут быть больше, чем время выполнения подзадачи, поэтому в этом случае распараллеливание может привести к снижению производительности!


Несмотря на это, простое распараллеливание в R довольно легко.Ниже представлен подход к распараллеливанию вашей задачи с использованием пакета doParallel .Другие подходы включают использование пакетов как параллельный .

library(doParallel)
## choose number of processors/cores
cl <- makeCluster(2)
registerDoParallel(cl)
## register elapsed time to evaluate code snippet
## %dopar% execute code in parallale
B <- 100000; n <- 300000
ptime <- system.time({ 
  M1=list()
  foreach(i=1:B) %dopar% {
      M1[i]=(n^2)
    }
  })
## %do% execute sequentially
stime <- system.time({ 
  M1=list()
  foreach(i=1:B) %do% {
    M1[i]=(n^2)
  }
})

. Прошедшее время на моем компьютере (2 ядра) составляло 59,472 и 44,932 соответственно.Понятно, что при распараллеливании улучшений не было: действительно, производительность была хуже!


Ниже показан лучший пример, где основная задача намного дороже с точки зрения вычислительных потребностей:

x <- iris[which(iris[,5] != "setosa"), c(1,5)]
trials <- 10000
ptime <- system.time({
  r <- foreach(icount(trials), .combine=cbind) %dopar% {
    ind <- sample(100, 100, replace=TRUE)
    result1 <- glm(x[ind,2]~x[ind,1], family=binomial(logit))
    coefficients(result1)
    }
  })
stime <- system.time({
  r <- foreach(icount(trials), .combine=cbind) %do% {
    ind <- sample(100, 100, replace=TRUE)
    result1 <- glm(x[ind,2]~x[ind,1], family=binomial(logit))
    coefficients(result1)
  }
})

И прошедшие времена были 24,709 и 34,502: увеличение на 28%.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...