Планировщики задач Hadoop: емкость против справедливого распределения или что-то еще? - PullRequest
4 голосов
/ 16 сентября 2010

Фон

Мой работодатель постепенно переводит нашу ресурсоемкую логику обработки ETL и бэкэнда с MySQL на Hadoop (dfs & hive).На данный момент все по-прежнему несколько мало и управляемо (20 ТБ на 10 узлов), но мы намерены постепенно увеличивать размер кластера.

Теперь, когда hadoop переходит на производственное использование, его проблема становится все более сложной.планирование и совместное использование кластера между специальными пользовательскими запросами кустов, ежечасными процессами M / R, и я полагаю, что в конечном итоге некоторые из них используют hbase.Опасение заключается в том, что пользователь будет делать наивный запрос, который потенциально может выполняться в течение неоправданного времени (скажем, 4 часа), забивая очередь задач и создавая потенциальную нестабильность загрузки инфраструктуры.

Вопрос

Другая часть моей компании уже сожжена незрелостью Flume, поэтому мой вопрос в том, насколько стабильны два известных планировщика (Capacity & Fair) и помимо использования в своих спонсорских компаниях (Yahoo и Facebook) они используются где-то еще?

Редактировать: Справочная информация

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html

1 Ответ

3 голосов
/ 04 октября 2010

Мы поставляем CDH с включенным планировщиком Fair Share по умолчанию Это довольно стабильно.

...