Spark Streaming Kafka Stream пакетного исполнения - PullRequest
0 голосов
/ 28 ноября 2018

Я новичок в потоковой передаче искры, и у меня есть общий вопрос, касающийся его использования.В настоящее время я реализую приложение, которое передает данные из темы Кафки.

Является ли распространенным сценарием использование приложения для запуска пакета только один раз, например, в конце дня, для сбора всех данных из темы, некоторой агрегации и трансформации и так далее?

Это означает, что после запуска приложения с помощью spark-submit все эти вещи будут выполняться в одном пакете, а затем приложение будет закрыто.Или Spark Stream предназначен для непрерывной и непрерывной потоковой передачи данных в непрерывных пакетах?

1 Ответ

0 голосов
/ 28 ноября 2018

Вы можете использовать API-интерфейс kafka-stream и фиксировать время окна для выполнения агрегации и преобразования по событиям в вашей теме только по одному пакету за раз.для перемещения информации об управлении окнами, проверьте это https://kafka.apache.org/21/documentation/streams/developer-guide/dsl-api.html#windowing

...