Лучшие практики использования Oozie для Hadoop - PullRequest
1 голос
/ 08 августа 2011

Я уже давно пользуюсь Hadoop.Через некоторое время я понял, что мне нужно объединить задания Hadoop в цепочку и иметь какой-то тип рабочего процесса.Я решил использовать Oozie, но не смог найти много информации о лучших практиках.Я хотел бы услышать это от более опытных людей.

С наилучшими пожеланиями

Ответы [ 2 ]

2 голосов
/ 23 ноября 2011

Лучший способ изучить oozie - это скачать tar-файл примеров, который поставляется вместе с дистрибутивом, и запустить каждый из них. В нем есть пример для mapreduce, pig, потокового рабочего процесса, а также пример координатора xmls.

Сначала запустите нормальные рабочие процессы и, как только вы отладите их, перейдите к запуску рабочих процессов с координатором, чтобы вы могли выполнять его шаг за шагом. Наконец, одним из лучших способов было бы сделать так, чтобы большинство ваших переменных в рабочем процессе и координаторе были настраиваемыми и передавались через файл component.properties, чтобы вам не приходилось часто касаться XML.

http://yahoo.github.com/oozie/releases/3.1.0/DG_Examples.html

2 голосов
/ 04 ноября 2011

Есть документы о Узи на github и apache.

https://github.com/yahoo/oozie/wiki

http://yahoo.github.com/oozie/releases/3.1.0/DG_Examples.html

http://incubator.apache.org/oozie/index.html

Документ Apache находится в стадии разработкиобновлен и должен скоро появиться.

...