Question

Я знаю, Hadoop - это не только альтернатива для обработки полуструктурированных данных в целом - я могу сделать много вещей с простыми данными, разделенными табуляцией, и набором инструментов Unix (cut, grep, sed, ...) и рукописными скрипты на питоне. Но иногда я получаю действительно большие объемы данных, и время обработки уходит до 20-30 минут. Это неприемлемо для меня, потому что я хочу динамически экспериментировать с набором данных, выполнять несколько полу-специальных запросов и т. Д.

Итак, какой объем данных вы считаете достаточным для настройки кластера Hadoop с точки зрения затрат-результатов этого подхода?

bajafresh4life · Answer 1 · 11 января 2011

Не знаю точно, что вы делаете, вот мои предложения:

Если вы хотите выполнять специальные запросы к данным, Hadoop - не лучший способ.Вы пытались загрузить свои данные в базу данных и выполнить запросы к ним?
Если вы хотите поэкспериментировать с использованием Hadoop без затрат на настройку кластера, попробуйте воспользоваться предложением Amazon Elastic MapReduce http://aws.amazon.com/elasticmapreduce/
Я лично видел, как люди довольно далеко используют сценарии оболочки для таких задач.Вы пытались распределить свою работу по машинам, используя SSH?GNU Parallel делает это довольно просто: http://www.gnu.org/software/parallel/

David Gruzman · Answer 2 · 15 января 2011

Я думаю, что эта проблема имеет несколько аспектов.Первый - что вы можете достичь с помощью обычных технологий SQL, таких как MySQL / Oracle и т. Д. Если вы можете получить решение с их помощью - я думаю, что это будет лучшее решение.

Следует также отметить, что обработка табличных данных по методу цикла будет намного медленнее, чем в обычной СУБД.Итак, я перехожу ко второму аспекту - готовы ли вы создать кластер hadoop с более чем 4 машинами?Я думаю, что 4-6 машин - это минимум, чтобы почувствовать какую-то выгоду.

Третий аспект - вы готовы ждать загрузки данных в базу данных - это может занять время, но тогда запросы будут быстрыми.Поэтому, если вы делаете несколько запросов для каждого набора данных - это дает преимущество hadoop.

Возвращаясь к исходному вопросу - я думаю, что вам нужно как минимум 100-200 ГБ данных, чтобы обработка Hadoop имела некоторый смысл.2 ТБ, я думаю, является четким признаком того, что hadoop может быть хорошим выбором.

Какой приблизительный объем полуструктурированных данных достаточно для настройки кластера Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой приблизительный объем полуструктурированных данных достаточно для настройки кластера Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы