Каковы некоторые подходы для запуска нескольких сценариев Pig последовательно? - PullRequest
2 голосов
/ 22 июля 2011

Мне нужно последовательно запускать некоторые сценарии Pig в Hadoop. Они должны быть запущены отдельно. Есть предложения?

обновление

Просто быстрое обновление, над которым мы работаем для запуска сценариев Pig из одного Java-класса. Oozie - это возможность, о которой упоминалось в комментарии (хотя она слишком велика для наших нужд). Я также слышал, что возможно организовать оркестры Pig как часть большого потока работ в Cascading (http://www.cascading.org/)) и немного посмотрел на это.

Ответы [ 2 ]

2 голосов
/ 26 июля 2011

Для простой последовательности задач я думаю, что предложенного orangeoctopus, вероятно, будет достаточно Если вы хотите объединить более сложный рабочий процесс из свиной и / или простой ванильной MapReduce, вам, вероятно, стоит взглянуть на Oozie

Обновление:

Если вы используете pig 0.9, вы также можете взглянуть на встраивание pig в такой язык, как python. Вот ссылка

1 голос
/ 25 июля 2011

На практике большинство моих скриптов Pig оборачивают в скрипты bash. Вы можете контролировать последовательное выполнение внутри сценария оболочки:

pig myscript1.pig && pig myscript2.pig && pig myscript3.pig

...