новичок весенней партии : у меня есть серия партий, которые
- чтение все новые записи (с момента последнего выполнения) из некоторых таблиц sql
- загрузить все новые записи в hadoop
- запустить серию заданий сокращения (свиноводства) на всех данных (старых и новых)
- загрузить все вывод в локальный и запустить какую-то другую локальную обработку на всех выходных
Дело в том, что у меня нет очевидного «элемента» - я не хочу относиться к конкретным строкам текста в моих данных, я работаю со всем этим как с одним большим куском и не хочу никакого интервалы коммитов и прочее ...
Тем не менее, я хочу, чтобы все эти шаги были слабо связаны - как, например, шаг a + b + c может успешно выполняться в течение нескольких дней и накапливать обработанные данные, в то время как шаг d продолжает сбой, а затем, когда он, наконец, завершается успешно, он будет читать и обработать все выходные данные предыдущих шагов.
ТАК: мой "элемент" - это вымышленный "рабочий элемент", который будет означать все новые данные? самостоятельно поддерживать ряд очередей и передавать эти вымышленные рабочие элементы между ними?
спасибо!