Карта Hadoop / уменьшить цепочку - PullRequest
4 голосов
/ 13 ноября 2010

Я хочу связать 2 Map / Сокращение рабочих мест. Я пытаюсь использовать JobControl для достижения того же. Моя проблема -

JobControl нужен org.apache.hadoop.mapred.jobcontrol.Job, который, в свою очередь, нуждается в org.apache.hadoop.mapred.JobConf, который устарел. Как обойти эту проблему, чтобы связать мою карту / уменьшить?

У кого-нибудь есть лучшие идеи для создания цепочек (кроме каскадирования).

Спасибо, M

Ответы [ 4 ]

1 голос
/ 15 ноября 2010
0 голосов
/ 01 июля 2018

Вы можете сослаться на мой ответ на этот вопрос, так как он выглядит очень похоже: Карта конвейеров hadoop уменьшает количество заданий

0 голосов
/ 25 ноября 2010

Cloudera имеет инструмент рабочего процесса под названием Oozie , который может помочь с такого рода цепочкой. Может быть, излишне просто заставить одну работу работать за другой.

0 голосов
/ 13 ноября 2010

Вы можете использовать Riffle , это позволяет вам объединять в цепочку произвольные процессы (все, к чему вы прикрепляете свои аннотации).

У него есть элементарный планировщик зависимостей, поэтому он будет заказывать и выполнять ваши задания за вас. И это Apache по лицензии. Также на репо Conjars , если вы пользователь maven.

Я - автор, и написал его так, чтобы Mahout и другие пользовательские приложения могли иметь общий инструмент, также совместимый с каскадными потоками.

Я также являюсь автором Cascading . Но MapReduceFlow + Cascade в Cascading работает довольно хорошо для большинства необработанных цепочек MR-задач.

...