Какой приблизительный объем полуструктурированных данных достаточно для настройки кластера Hadoop? - PullRequest
1 голос
/ 11 января 2011

Я знаю, Hadoop - это не только альтернатива для обработки полуструктурированных данных в целом - я могу сделать много вещей с простыми данными, разделенными табуляцией, и набором инструментов Unix (cut, grep, sed, ...) и рукописными скрипты на питоне. Но иногда я получаю действительно большие объемы данных, и время обработки уходит до 20-30 минут. Это неприемлемо для меня, потому что я хочу динамически экспериментировать с набором данных, выполнять несколько полу-специальных запросов и т. Д.

Итак, какой объем данных вы считаете достаточным для настройки кластера Hadoop с точки зрения затрат-результатов этого подхода?

Ответы [ 2 ]

2 голосов
/ 11 января 2011

Не знаю точно, что вы делаете, вот мои предложения:

  • Если вы хотите выполнять специальные запросы к данным, Hadoop - не лучший способ.Вы пытались загрузить свои данные в базу данных и выполнить запросы к ним?
  • Если вы хотите поэкспериментировать с использованием Hadoop без затрат на настройку кластера, попробуйте воспользоваться предложением Amazon Elastic MapReduce http://aws.amazon.com/elasticmapreduce/
  • Я лично видел, как люди довольно далеко используют сценарии оболочки для таких задач.Вы пытались распределить свою работу по машинам, используя SSH?GNU Parallel делает это довольно просто: http://www.gnu.org/software/parallel/
1 голос
/ 15 января 2011

Я думаю, что эта проблема имеет несколько аспектов.Первый - что вы можете достичь с помощью обычных технологий SQL, таких как MySQL / Oracle и т. Д. Если вы можете получить решение с их помощью - я думаю, что это будет лучшее решение.

Следует также отметить, что обработка табличных данных по методу цикла будет намного медленнее, чем в обычной СУБД.Итак, я перехожу ко второму аспекту - готовы ли вы создать кластер hadoop с более чем 4 машинами?Я думаю, что 4-6 машин - это минимум, чтобы почувствовать какую-то выгоду.

Третий аспект - вы готовы ждать загрузки данных в базу данных - это может занять время, но тогда запросы будут быстрыми.Поэтому, если вы делаете несколько запросов для каждого набора данных - это дает преимущество hadoop.

Возвращаясь к исходному вопросу - я думаю, что вам нужно как минимум 100-200 ГБ данных, чтобы обработка Hadoop имела некоторый смысл.2 ТБ, я думаю, является четким признаком того, что hadoop может быть хорошим выбором.

...