Spark Streaming Интеграция в реальном времени с Kafka - PullRequest
0 голосов
/ 05 мая 2018

Я интегрировал Spark Streaming Process с Kafka, чтобы прочитать конкретную тему. Создан Spark Context со временем опроса 5 секунд. Работает нормально. Но в случае, если я хочу получить доступ к каналам в режиме реального времени, могу ли я уменьшить его до 1 секунды (это будет слишком много?) Или есть какой-то другой лучший способ справиться с этой ситуацией.

1 Ответ

0 голосов
/ 05 мая 2018

Spark Структурированная потоковая передача предлагает несколько режимов или «триггеров» для обработки времени. Вы можете пожертвовать пропускной способностью за меньшую задержку, используя режим непрерывной обработки. Вы жертвуете задержкой для большей пропускной способности, увеличивая продолжительность триггера. У вас должно получиться установить длительность микропакета равной 1 с на Scala и 2 с на Python.

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#triggers

...