Hadoop: Недостатки использования только 2 машин? - PullRequest
2 голосов
/ 11 февраля 2010

Я хочу выполнить анализ огромных объемов данных и собирать аналитическую информацию. Однако все данные поступают из внешних источников, и у меня есть только 2 машины для хранения - одна для резервного копирования / репликации.

Я пытаюсь использовать Hadoop, Lucene ... для этого. Но во всех учебных документах упоминается, что Hadoop полезен для распределенной обработки, состоящей из нескольких узлов. Моя установка не вписывается в эту архитектуру.

Есть ли какие-либо накладные расходы при использовании Hadoop только с двумя машинами? Если Hadoop не является хорошим выбором, есть ли альтернативы? Мы смотрели на Splunk, нам это нравится, но это дорого для нас, чтобы купить. Мы просто хотим построить свой собственный.

1 Ответ

0 голосов
/ 11 февраля 2010

Hadoop следует использовать для задач распределенной пакетной обработки.

5-общие-вопросы-о-Hadoop

Анализ файлов журналов - это одно из наиболее распространенных применений Hadoop, для которого Facebook использует его.

Если у вас есть две машины, у вас по определению есть многоузловой кластер. Вы можете использовать Hadoop на одной машине, если хотите, но по мере добавления большего количества узлов время, необходимое для обработки того же объема данных, уменьшается.

Вы говорите, у вас есть огромное количество данных? Это важные цифры для понимания. Лично, когда я думаю, что огромный с точки зрения данных, я думаю в диапазоне 100 терабайт +. В этом случае вам, вероятно, потребуется более двух машин, особенно если вы хотите использовать репликацию через HDFS.

Аналитическая информация, которую вы хотите собрать? Определили ли вы, что на эти вопросы можно ответить, используя подход MapReduce?

Что-то, что вы могли бы рассмотреть, это использовать Hadoop на Amazons EC2, если у вас ограниченное количество аппаратных ресурсов. Вот несколько ссылок для начала:

...