Если вы хотите распределить задания для параллельного выполнения на машинах, к которым у вас есть физический доступ, я HIGHLY рекомендую серверную часть doRedis для foreach.Вы можете прочитать виньетка PDF , чтобы получить более подробную информацию.Суть в следующем:
Зачем писать пакет doRedis?В конце концов, пакет foreach уже имеет много параллельных внутренних пакетов, включая doMC, doSNOW и doMPI.Пакет doRedis позволяет создавать динамические пулы работников.Новые рабочие могут быть добавлены в любое время, даже в середине выполнения вычислений.Эта функция актуальна, например, для современных сред облачных вычислений.Пользователи могут принять экономичное решение о «включении» большего количества вычислительных ресурсов в любое время, чтобы ускорить выполнение вычислений. Точно так же современные системы распределения ресурсов кластера doRedis Package могут динамически планировать R работников, когда ресурсы кластера становятся доступными
Hadoop работает лучше всего, если машины, на которых работает Hadoop, выделены для кластера, а не заимствованы. Кроме того, существуют значительные издержки на настройку Hadoop, которые могут стоить усилий, если вам требуется карта / сокращение алгоритма и распределенное хранилище, предоставляемые Hadoop.
Так в чем же заключается ваша конфигурация? У вас есть офис, полный машин, на которые вы хотите распределить задания R? У вас есть выделенный кластер? Это будет EC2 или другая «облачная» система??
Дьявол кроется в деталях, так что вы можете получить более точные ответы, если детали явны.
Если вы хотите, чтобы работники выполняли задания и чтобы результаты заданий были перенастроены обратно водин главный узел, вы будете мюch лучше использовать специальное решение R, а не систему, такую как TakTuk или dsh, которые являются более общими инструментами распараллеливания.