Hadoop следует использовать для задач распределенной пакетной обработки.
5-общие-вопросы-о-Hadoop
Анализ файлов журналов - это одно из наиболее распространенных применений Hadoop, для которого Facebook использует его.
Если у вас есть две машины, у вас по определению есть многоузловой кластер. Вы можете использовать Hadoop на одной машине, если хотите, но по мере добавления большего количества узлов время, необходимое для обработки того же объема данных, уменьшается.
Вы говорите, у вас есть огромное количество данных? Это важные цифры для понимания. Лично, когда я думаю, что огромный с точки зрения данных, я думаю в диапазоне 100 терабайт +. В этом случае вам, вероятно, потребуется более двух машин, особенно если вы хотите использовать репликацию через HDFS.
Аналитическая информация, которую вы хотите собрать? Определили ли вы, что на эти вопросы можно ответить, используя подход MapReduce?
Что-то, что вы могли бы рассмотреть, это использовать Hadoop на Amazons EC2, если у вас ограниченное количество аппаратных ресурсов. Вот несколько ссылок для начала: