Question

Я уже давно пользуюсь Hadoop.Через некоторое время я понял, что мне нужно объединить задания Hadoop в цепочку и иметь какой-то тип рабочего процесса.Я решил использовать Oozie, но не смог найти много информации о лучших практиках.Я хотел бы услышать это от более опытных людей.

С наилучшими пожеланиями

jayadev · Answer 1 · 23 ноября 2011

Лучший способ изучить oozie - это скачать tar-файл примеров, который поставляется вместе с дистрибутивом, и запустить каждый из них. В нем есть пример для mapreduce, pig, потокового рабочего процесса, а также пример координатора xmls.

Сначала запустите нормальные рабочие процессы и, как только вы отладите их, перейдите к запуску рабочих процессов с координатором, чтобы вы могли выполнять его шаг за шагом. Наконец, одним из лучших способов было бы сделать так, чтобы большинство ваших переменных в рабочем процессе и координаторе были настраиваемыми и передавались через файл component.properties, чтобы вам не приходилось часто касаться XML.

http://yahoo.github.com/oozie/releases/3.1.0/DG_Examples.html