Spark Структурированная потоковая передача - скачки скорости ввода, но скорость обработки остается той же - PullRequest
0 голосов
/ 14 октября 2019

Я выполняю задание Spark Structured Streaming в Databricks. В качестве источника используется Azure Eventhub. Когда я смотрю на графики запросов, я вижу следующее:

enter image description here

Есть большие скачки в Скорость ввода , но Скорость обработки на самом деле не реагирует на эти пики. Но, глядя на выходные результаты, кажется, что некоторые сообщения не обрабатываются / пропускаются.

Есть ли объяснение такого поведения?

РЕДАКТИРОВАТЬ: Изображение с более длинным таймфреймом
Можно видеть, что в низком диапазоне записей в секунду скорость входного сигнала и скорость обработки совпадают ... но согласно графику Spark не может поддерживать, когдашипы обработки ввода становятся слишком большими.

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...