Вы можете использовать Riffle , это позволяет вам объединять в цепочку произвольные процессы (все, к чему вы прикрепляете свои аннотации).
У него есть элементарный планировщик зависимостей, поэтому он будет заказывать и выполнять ваши задания за вас. И это Apache по лицензии. Также на репо Conjars , если вы пользователь maven.
Я - автор, и написал его так, чтобы Mahout и другие пользовательские приложения могли иметь общий инструмент, также совместимый с каскадными потоками.
Я также являюсь автором Cascading . Но MapReduceFlow + Cascade в Cascading работает довольно хорошо для большинства необработанных цепочек MR-задач.