Должен ли я предпочесть hadoop vs condor при работе с R? - PullRequest
5 голосов
/ 04 ноября 2010

Я ищу способы отправки работ на несколько компьютеров в компьютерную сетку моего университета.

В настоящее время работает Condor, а также предлагает Hadoop.

Мой вопрос, таким образом, должен ли я пытаться взаимодействовать с R для Hadoop или Conder для моих проектов?

Для обсуждения давайте предположим, что мы говорим о смущающе параллельных задачах.

p.s: я видел ресурсы, описанные в представлениях задачи CRAN .

1 Ответ

5 голосов
/ 03 декабря 2010

Вы можете сделать оба.

Вы можете использовать HDFS для своих наборов данных и Condor для планирования своей работы. Использование Condor для размещения исполнителей на компьютерах и функции HDFS + Hadoops Map-Reduce для обработки ваших данных (при условии, что ваша проблема сопоставима с map-Reduce). Тогда вы используете наиболее подходящий инструмент для работы: Condor - это планировщик работы, и поэтому он работает лучше, чем Hadoop. А инфраструктура HDFS и M-R Hadoop - это то, чего у Condor нет (но они действительно полезны для использования в работах на Condor).

Я бы лично посмотрел, есть ли HDFS для обмена данными между заданиями, которые выполняются дискретно, как задания Condor. Особенно в университетской среде, где общие вычислительные ресурсы не являются на 100% надежными и могут приходить и уходить по желанию, устойчивость Condor в этом типе настроек значительно упростит выполнение работы.

...