Я использую версию spark- sql 2.4.x, разъем datastax-spark-cassandra для версии Cassandra-3.x. Наряду с kafka.
У меня есть сценарий для некоторых финансовых данных, поступающих из kafka topi c, скажем, financeDf Мне нужно переназначить некоторые поля из metaDataDf = //, загруженного из таблицы cassandra для просмотра. Но эту таблицу cassandra (metaDataDf) можно обновлять один раз в час.
В потоковом приложении spark- sql как получать последние данные из таблицы cassandra за каждый час?
Я не хочу загружать эти данные metaDataDf для каждой записи, которую я получаю из topi c, т.е. financeDf.
Как это должно быть сделано / обработано? любая помощь, пожалуйста ..