Мне нужно объединить две таблицы пользователя и таблицы транзакций в Spark Streaming.В настоящее время я пишу пользовательскую таблицу в HDFS. Данные транзакций будут получены в Spark Streaming через Kafka.Мне нужно объединить эти потоковые данные с данными пользователей.Пользовательская таблица может содержать как измененные, так и новые записи.В настоящее время я устанавливаю таймер на каждые 5 минут и загружаю данные таблицы пользователей HDFS и перезагружаю их снова по истечении таймера.Я также смог найти измененные записи и опустить старые записи в пользовательской таблице, используя отметку времени.Но в течение этого таймера (5 минут), если создается какой-либо пользователь, который не будет присутствовать в искровой памяти, следовательно, он не будет соединен с данными транзакций.Есть ли способ хранить пользовательские данные в базе данных и применять соединения с потоковыми данными в режиме реального времени?Любые предложения, пожалуйста