Question

Я использовал этот код Rcpp для быстрого выбора для вектора значений, то есть для получения k-го наибольшего элемента из вектора за O (n) время (я сохранил это как qselect.cpp):

// [[Rcpp::depends(RcppArmadillo)]]
#include <RcppArmadillo.h>
using namespace arma;

// [[Rcpp::export]]
double qSelect(arma::vec& x, const int k) {

  // ARGUMENTS
  // x: vector to find k-th largest element in
  // k: desired k-th largest element

  // safety copy since nth_element modifies in place
  arma::vec y(x.memptr(), x.n_elem);

  // partially sort y in O(n) time
  std::nth_element(y.begin(), y.begin() + k - 1, y.end());

  // the k-th largest value
  const double kthValue = y(k-1);

  return kthValue;

}

Я использовал это как быстрый способ для вычисления желаемого процентиля.Например,

n = 50000
set.seed(1)
x = rnorm(n=n, mean=100, sd=20)
tau = 0.01 # desired percentile
k = tau*n+1 # here we will get the 6th largest element
library(Rcpp)
Rcpp::sourceCpp('qselect.cpp')
library(microbenchmark)
microbenchmark(qSelect(x,k)) # 53.32917, 548 µs
microbenchmark(sort(x, partial=k)[k]) # 53.32917, 694 µs = pure R solution

[Может показаться, что это уже быстро, но мне нужно сделать это миллионы раз в моем приложении]

Теперь я хотел бы изменить эту функцию Rcpp так, чтобы онасделать многопоточный быстрый выбор для всех столбцов или всех строк матрицы R и вернуть результат в виде вектора.Поскольку я новичок в Rcpp, мне хотелось бы получить несколько советов, хотя о том, какой из фреймворков, скорее всего, будет наиболее быстрым для этого и будет проще кодировать (он должен легко работать кроссплатформенно, и мне нужен хороший контроль над nrтемы для использования).Используя OpenMP , RcppParallel или RcppThread ?Или даже лучше - если бы кто-то мог продемонстрировать быстрый и элегантный способ сделать это?

Tom Wenseleers · Answer 1 · 25 февраля 2019

Следуя приведенным ниже советам, я попробовал многопоточность с OpenMP, и это, похоже, дает приличное ускорение при использовании 8 потоков на моем ноутбуке.Я изменил свой файл qselect.cpp на:

// [[Rcpp::depends(RcppArmadillo)]]
#define RCPP_ARMADILLO_RETURN_COLVEC_AS_VECTOR
#include <RcppArmadillo.h>
using namespace arma;

// [[Rcpp::export]]
double qSelect(arma::vec& x, const int k) {

  // ARGUMENTS
  // x: vector to find k-th largest element in
  // k: k-th statistic to look up

  // safety copy since nth_element modifies in place
  arma::vec y(x.memptr(), x.n_elem);

  // partially sorts y
  std::nth_element(y.begin(), y.begin() + k - 1, y.end());

  // the k-th largest value
  const double kthValue = y(k-1);

  return kthValue;

}


// [[Rcpp::export]]
arma::vec qSelectMbycol(arma::mat& M, const int k) {

  // ARGUMENTS
  // M: matrix for which we want to find the k-th largest elements of each column
  // k: k-th statistic to look up

  arma::mat Y(M.memptr(), M.n_rows, M.n_cols);
  // we apply over columns
  int c = M.n_cols;
  arma::vec out(c);
  int i;
  for (i = 0; i < c; i++) {
      arma::vec y = Y.col(i);
      std::nth_element(y.begin(), y.begin() + k - 1, y.end());
      out[i] = y(k-1); // the k-th largest value of each column
  }

  return out;

}

#include <omp.h>
// [[Rcpp::plugins(openmp)]]

// [[Rcpp::export]]
arma::vec qSelectMbycolOpenMP(arma::mat& M, const int k, int nthreads) {

  // ARGUMENTS
  // M: matrix for which we want to find the k-th largest elements of each column
  // k: k-th statistic to look up
  // nthreads: nr of threads to use

  arma::mat Y(M.memptr(), M.n_rows, M.n_cols);
  // we apply over columns
  int c = M.n_cols;
  arma::vec out(c);
  int i;
  omp_set_num_threads(nthreads);
#pragma omp parallel for shared(out) schedule(dynamic,1)
  for (i = 0; i < c; i++) {
    arma::vec y = Y.col(i);
    std::nth_element(y.begin(), y.begin() + k - 1, y.end());
    out(i) = y(k-1); // the k-th largest value of each column
  }

  return out;

}

Тесты:

n = 50000
set.seed(1)
x = rnorm(n=n, mean=100, sd=20)
M = matrix(rnorm(n=n*10, mean=100, sd=20), ncol=10)
tau = 0.01 # desired percentile
k = tau*n+1 # we will get the 6th smallest element
library(Rcpp)
Rcpp::sourceCpp('qselect.cpp')
library(microbenchmark
microbenchmark(apply(M, 2, function (col) sort(col, partial=k)[k]),
               apply(M, 2, function (col) qSelect(col,k)),
               qSelectMbycol(M,k),
               qSelectMbycolOpenMP(M,k,nthreads=8))[,1:4]

Unit: milliseconds
                                                 expr      min       lq      mean    median        uq        max neval cld
 apply(M, 2, function(col) sort(col, partial = k)[k]) 8.937091 9.301237 11.802960 11.828665 12.718612  43.316107   100   b
           apply(M, 2, function(col) qSelect(col, k)) 6.757771 6.970743 11.047100  7.956696  9.994035 133.944735   100   b
                                  qSelectMbycol(M, k) 5.370893 5.526772  5.753861  5.641812  5.826985   7.124698   100  a 
              qSelectMbycolOpenMP(M, k, nthreads = 8) 2.695924 2.810108  3.005665  2.899701  3.061996   6.796260   100  a

Я был удивлен примерно в 2-кратном увеличении скорости выполнения применения в Rcpp, даже не используя многопоточность(функция qSelectMbycol) и было еще 2-кратное увеличение скорости с многопоточностью OpenMP (qSelectMbycolOpenMP).

Приветствуются любые рекомендации по возможной оптимизации кода ...

Для небольших n (n <1000) версия OpenMP не быстрее, возможно, потому что отдельные задания слишком малы.Например, для <code>n=500:

Unit: microseconds
                                                 expr     min       lq      mean   median       uq      max neval cld
 apply(M, 2, function(col) sort(col, partial = k)[k]) 310.477 324.8025 357.47145 337.8465 361.5810 1782.885   100   c
           apply(M, 2, function(col) qSelect(col, k)) 103.921 114.8255 141.59221 119.3155 131.9315 1990.298   100  b 
                                  qSelectMbycol(M, k)  24.377  32.2885  44.13873  35.2825  39.3440  900.210   100 a  
              qSelectMbycolOpenMP(M, k, nthreads = 8)  76.123  92.1600 130.42627  99.8575 112.4730 1303.059   100  b

Dirk Eddelbuettel · Answer 2 · 24 февраля 2019

Да, это было бы кандидатом на многопоточный вариант - но, как скажет вам документация RcppParallel, одно требование к параллельному коду - это не R память, и здесь мы используем RcppArmadillo в нашей эффективной нулевой копии способ, означающий, что это R память.

Таким образом, вам может понадобиться обменять дополнительные копии данных (скажем, на использование типа RcppParallel типа RMatrix) для параллельного выполнения.

Но поскольку ваш алгоритм прост и по столбцам вамВы также можете поэкспериментировать с одним циклом OpenMP в своей функции выше: передать матрицу, сделать цикл по столбцам, используя #pragma for.

Самый быстрый способ многопоточности - быстрый выбор всех столбцов или всех строк матрицы в Rcpp - OpenMP, RcppParallel или RcppThread

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Самый быстрый способ многопоточности - быстрый выбор всех столбцов или всех строк матрицы в Rcpp - OpenMP, RcppParallel или RcppThread

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы