Я разрабатываю решение SparkStreaming, в котором таблица кустов кэшируется как Dataframe, а затем события потока объединяются с кэшированным Dataframe для получения результата.
Однако проблема в том, что таблица Hive будет обновляться с определенной частотой, и, следовательно, кэшированный Dataframe также должен обновляться соответствующим образом.
Есть ли какой-нибудь способ, скажем, некоторый TTL или любой другой механизм вокруг кэшированного Dataframe, в котором данные обновляются автоматически через определенный промежуток времени с помощью обновленных записей таблицы Hive.