Я выполняю задание Spark Structured Streaming в Databricks. В качестве источника используется Azure Eventhub. Когда я смотрю на графики запросов, я вижу следующее:
Есть большие скачки в Скорость ввода , но Скорость обработки на самом деле не реагирует на эти пики. Но, глядя на выходные результаты, кажется, что некоторые сообщения не обрабатываются / пропускаются.
Есть ли объяснение такого поведения?
РЕДАКТИРОВАТЬ: Изображение с более длинным таймфреймом
Можно видеть, что в низком диапазоне записей в секунду скорость входного сигнала и скорость обработки совпадают ... но согласно графику Spark не может поддерживать, когдашипы обработки ввода становятся слишком большими.