Мы хотим использовать Apache Flink с бэкэндом RocksDB (HDFS) для обработки потоков с сохранением состояния. Тем не менее, наше состояние приложения (состояние ключа) будет иметь порядок терабайт.
Насколько я понимаю, когда мы восстанавливаем задание из точки сохранения, все данные о состоянии оператора будут отправлены из местоположения точки сохранения на HDFS для каждого из диспетчеров задач. Если состояние порядка терабайт, то каждое развертывание приведет к очень длительному времени простоя, если все это состояние необходимо будет передать.
Я хотел бы понять, если в случае RocksDB это возможно настроить отложенную загрузку, при которой состояние ключа извлекается из HDFS по мере необходимости, а затем кэшируется на локальном диске.
Спасибо!