Обычно способ, которым я делаю это с потоковой передачей Hadoop и Python, находится внутри моего bash-скрипта, который я создаю для запуска заданий в первую очередь. Я всегда запускаю из сценария bash, таким образом я могу получать электронные письма об ошибках и электронные письма об успехе и делать их более гибкими, передавая параметры из другого сценария Ruby или Python, упаковывая его, который может работать в более крупной системе обработки событий.
Итак, выходные данные первой команды (задания) являются входными данными для следующей команды (задания), которые могут быть переменными в вашем скрипте bash, передаваемыми в качестве аргумента из командной строки (просто и быстро)
Возможно, вы захотите проверить Oozie http://yahoo.github.com/oozie/design.html движок рабочего процесса для Hadoop, который также поможет в этом (поддерживает потоковую передачу, не проблема). У меня не было этого, когда я начинал, поэтому мне пришлось создавать свою собственную вещь, но это система kewl и она полезна !!!!