Использование библиотек C ++ в пакете R - PullRequest
15 голосов
/ 12 ноября 2009

Как лучше всего использовать библиотеку C ++ в R, надеясь сохранить структуры данных C ++. Я совсем не пользователь C ++, поэтому мне не ясны относительные достоинства доступных подходов. Руководство R-ext, кажется, предлагает обернуть каждую функцию C ++ в C. Однако, существует по крайней мере четыре или пять других способов включения C ++.

Существует два способа получения пакетов с аналогичной линией: пакеты Rcpp (поддерживаемые плодовитым переполнением Dirk Eddelbuettel) и пакеты RcppTemplate (оба в CRAN), в чем различия между ними?

Еще один пакет rcppbind, доступный для R forge, который утверждает, что использует другой подход к связыванию C ++ и R (я не осведомлен).

Пакет inline, доступный в CRAN, утверждает, что он позволяет использовать встроенный C / C ++. Я не уверен, что это отличается от встроенной функциональности, за исключением того, что код может быть встроенным в R / R.

И, наконец, RSwig, который, по-видимому, в дикой природе , но неясно, насколько он поддерживается, поскольку страница автора не обновлялась годами.

У меня вопрос: каковы относительные достоинства этих разных подходов? Какие из них являются наиболее переносимыми и надежными, которые проще всего реализовать. Если бы вы планировали распространять пакет по CRAN, какой из методов вы бы использовали?

1 Ответ

17 голосов
/ 12 ноября 2009

Прежде всего, отказ от ответственности: я использую Rcpp все время. Фактически, когда (переименованный к тому времени из Rcpp) RcppTemplate уже оставался сиротским и без обновлений в течение двух лет, я начал поддерживать его под его первоначальным именем Rcpp (под которым он был добавлен в RQuantLib ). Это было около года назад, и я внес несколько дополнительных изменений, которые вы можете найти в документации ChangeLog.

Теперь RcppTemplate совсем недавно вернулся после полных тридцати пяти месяцев без каких-либо обновлений или исправлений. Он содержит новый интересный код, но, похоже, он не имеет обратной совместимости, поэтому я не буду использовать его там, где я уже использовал Rcpp.

Rcppbind не очень активно поддерживался всякий раз, когда я проверял. У Уит Армстронга также есть шаблонный пакет интерфейса под названием rabstraction .

Встроенный - это нечто совершенно иное: он облегчает цикл компиляции / компоновки, «встраивая» вашу программу в виде строки символов R, которая затем компилируется, связывается и загружается. Я говорил с Олегом о встроенной поддержке Rcpp, что было бы неплохо.

Swig тоже интересно. Джо Ванг проделал отличную работу и обернул весь QuantLib для R. Но когда я в последний раз попробовал его, он больше не работал из-за некоторых изменений во внутреннем интерфейсе R. По словам кого-то из команды Swig, Джо все еще может работать над этим. Цель Swig - большие библиотеки в любом случае. Этот проект, вероятно, может быть связан с возрождением, но не без технических проблем.

Еще одно упоминание должно идти в RInside , который работает с Rcpp и позволяет встраивать R в приложения C ++.

Итак, подведем итог: Rcpp хорошо работает для меня, особенно для небольших исследовательских проектов, где вы просто хотите добавить одну или две функции. Он сфокусирован на простоте использования и позволяет вам «скрыть» некоторые внутренние компоненты R, с которыми не всегда интересно работать. Я знаю многих других пользователей, которым я помогал и выключал их по электронной почте. Так что я бы сказал, пойти на это.

В моих руководствах "Введение в HPC с R" есть несколько примеров Rcpp, RInside и inline.

Редактировать: Итак, давайте посмотрим на конкретный пример (взятый из слайдов «HPC with R Intro» и заимствованный у Стивена Милборроу, который взял его у Venables и Ripley). Задача состоит в том, чтобы перечислить все возможные комбинации определителя матрицы 2x2, содержащей только одну цифру в каждой позиции. Это может быть сделано умным векторизованным способом (как мы обсуждаем на слайдах учебника) или грубой силой следующим образом:

#include <Rcpp.h>

RcppExport SEXP dd_rcpp(SEXP v) {
  SEXP  rl = R_NilValue;        // Use this when there is nothing to be returned.
  char* exceptionMesg = NULL;   // msg var in case of error

  try {
    RcppVector<int> vec(v);     // vec parameter viewed as vector of ints
    int n = vec.size(), i = 0;
    if (n != 10000) 
       throw std::length_error("Wrong vector size");
    for (int a = 0; a < 9; a++)
      for (int b = 0; b < 9; b++)
        for (int c = 0; c < 9; c++)
          for (int d = 0; d < 9; d++)
            vec(i++) = a*b - c*d;

    RcppResultSet rs;           // Build result set to be returned as list to R
    rs.add("vec", vec);         // vec as named element with name 'vec'
    rl = rs.getReturnList();    // Get the list to be returned to R.
  } catch(std::exception& ex) {
    exceptionMesg = copyMessageToR(ex.what());
  } catch(...) {
    exceptionMesg = copyMessageToR("unknown reason");
  }

  if (exceptionMesg != NULL) 
     Rf_error(exceptionMesg);

  return rl;
}

Если вы сохранили это как, скажем, dd.rcpp.cpp и установили Rcpp , то просто используйте

PKG_CPPFLAGS=`Rscript -e 'Rcpp:::CxxFlags()'`  \
    PKG_LIBS=`Rscript -e 'Rcpp:::LdFlags()'`  \
    R CMD SHLIB dd.rcpp.cpp

для создания общей библиотеки. Мы используем Rscript (или r), чтобы спросить Rcpp о его заголовке и расположении библиотеки. После сборки мы можем загрузить и использовать это из R следующим образом:

dyn.load("dd.rcpp.so")

dd.rcpp <- function() {
    x <- integer(10000)
    res <- .Call("dd_rcpp", x)
    tabulate(res$vec)
}

Таким же образом вы можете легко отправлять векторы, матрицы, ... различных типов данных R и C ++. Надеюсь, это поможет.

Редактировать 2 (примерно пять + лет спустя):

Так что этот ответ только что получил отклик и, следовательно, всплыл в моей очереди. много времени прошло с тех пор, как я написал его, и Rcpp стал на намного богаче по функциям. Поэтому я очень быстро написал это

#include <Rcpp.h>

// [[Rcpp::export]]
Rcpp::IntegerVector dd2(Rcpp::IntegerVector vec) {
    int n = vec.size(), i = 0;
    if (n != 10000) 
        throw std::length_error("Wrong vector size");
    for (int a = 0; a < 9; a++)
        for (int b = 0; b < 9; b++)
            for (int c = 0; c < 9; c++)
                for (int d = 0; d < 9; d++)
                    vec(i++) = a*b - c*d;
    return vec;
}

/*** R
x <- integer(10000)
tabulate( dd2(x) )
*/

, который можно использовать следующим образом с кодом в файле /tmp/dd.cpp

R> Rcpp::sourceCpp("/tmp/dd.cpp")    # on from any other file and path

R> x <- integer(10000)

R> tabulate( dd2(x) )
 [1]  87 132 105 155  93 158  91 161  72 104  45 147  41  96
[15]  72 120  36  90  32  87  67  42  26 120  41  36  27  75
[29]  20  62  16  69  19  28  49  45  12  18  11  57  14  48
[43]  10  18   7  12   6  46  23  10   4  10   4   6   3  38
[57]   2   4   2   3   2   2   1  17
R> 

Некоторые из ключевых отличий:

  • более простая сборка: просто sourceCpp() it; даже выполняет тестовый код R в конце
  • полноценный IntegerVector тип
  • Оболочка обработки исключений, автоматически добавляемая sourceCpp() Генератором кода
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...