У нас есть потоковый поток Spark Structured, использующий mapGroupWithState.Через некоторое время стабильной обработки неожиданно каждая мини-партия начинает занимать 40 секунд.Подозрительно это выглядит примерно 40 секунд каждый раз.До этого партии занимали менее секунды.
При просмотре деталей для конкретной задачи большинство разделов обрабатываются очень быстро, но требуется несколькоровно 40 секунд:
ГХ выглядел нормально, поскольку данные обрабатывались быстро, но внезапно все ГХ и т. д. останавливаются (одновременно с40-секундный выпуск):
Я получил дамп потока от одного из исполнителей, поскольку эта проблема возникает, но я не вижу ни одного ресурса, который онизаблокированы:
Мы сталкиваемся с проблемой ГХ и почему она проявляется таким образом?Есть ли другой ресурс, который блокирует и что это?