Платформа пакетной обработки для управления повторными вычислениями - PullRequest
0 голосов
/ 09 октября 2019

Моя проблема требует много исходных наборов данных, применяя к ним преобразования для получения промежуточных наборов данных, а затем нескольких конечных наборов данных. Большая часть этих данных будет статической, однако мне нужно поддерживать изменение параметров в преобразованиях. Это будет означать, что результат этого преобразования, а также зависящие от него наборы данных необходимо будет пересчитать.

Я кратко рассмотрел Beam, Airflow, Flink и некоторые другие, но они в основном сосредоточены либо на 1) потоковой передаче, либо на 2) параллелизации. Поддерживает ли какой-либо из них аннулирование промежуточных шагов, или какая-то другая библиотека / фреймворк подойдет лучше?

Спасибо!

...