Есть ли способ динамически остановить Spark структурированный поток? - PullRequest
0 голосов
/ 25 сентября 2018

В моем сценарии у меня есть несколько наборов данных, которые приходят время от времени, и которые мне нужно использовать на нашей платформе.Процесс проглатывания включает в себя несколько этапов преобразования.Одним из них является Spark.В частности, до сих пор я использую структурированные потоки с искройИнфраструктура также включает в себя кафку, из которой искровая структурированная потоковая передача считывает данные.

Интересно, есть ли способ определить, когда больше нечего есть из темы на какое-то время, чтобы решить прекратить работу.То есть я хочу запустить его в течение времени, необходимого для использования определенного набора данных, а затем остановить его.По определенным причинам мы решили не использовать пакетную версию spark.

Следовательно, есть ли тайм-аут или что-то, что можно использовать, чтобы обнаружить, что больше нет данных, поступающих к нему, и что все было обработано.

Спасибо

1 Ответ

0 голосов
/ 25 сентября 2018

Параметры мониторинга структурированного потока

Вы можете использовать query.lastProgress, чтобы получить временную метку и построить логику вокруг нее.Не забудьте сохранить свой контрольно-пропускной пункт в надежном, постоянном, доступном магазине.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...