Есть ли способ динамически масштабировать объем памяти модуля Pod в зависимости от размера задания данных (мой вариант использования)?
В настоящее время у нас есть Job и Pod, которые определены с объемом памяти, но мы не знаем, насколько большими будут данные для данного отрезка времени (иногда 1000 строк, иногда 100 000 строк).
Так что он сломается, если данные будут больше, чем память, выделенная нами ранее.
Я думал об использовании срезов по объему данных, т. Е. При разрезании на каждые 10 000 строк, мы будем знать требования к памяти для обработки фиксированного количества строк. Но мы пытаемся агрегировать по времени, отсюда и потребность во временном интервале.
Или любые другие решения, такие как Spark на kubernetes?
Другой взгляд на это:
Как мы можем реализовать реализацию Cloud Dataflow в Kubernetes на AWS