В моем сценарии у меня есть несколько наборов данных, которые приходят время от времени, и которые мне нужно использовать на нашей платформе.Процесс проглатывания включает в себя несколько этапов преобразования.Одним из них является Spark.В частности, до сих пор я использую структурированные потоки с искройИнфраструктура также включает в себя кафку, из которой искровая структурированная потоковая передача считывает данные.
Интересно, есть ли способ определить, когда больше нечего есть из темы на какое-то время, чтобы решить прекратить работу.То есть я хочу запустить его в течение времени, необходимого для использования определенного набора данных, а затем остановить его.По определенным причинам мы решили не использовать пакетную версию spark.
Следовательно, есть ли тайм-аут или что-то, что можно использовать, чтобы обнаружить, что больше нет данных, поступающих к нему, и что все было обработано.
Спасибо