Прошлая партия в Spark Streaming - PullRequest
0 голосов
/ 20 февраля 2020

Когда мое задание Spark Stream запускается, оно не может обработать все данные в течение длительности пакета, а затем происходит обратное нажатие, при котором размер пакета уменьшается. enter image description here

Это не проблема. Событие через пару часов, когда он обрабатывает все данные из потока Kafka (и предположим, что данные больше не передаются в Kafka), по-прежнему время пакета показывает прошедшее время.

enter image description here

enter image description here

Но если какие-либо данные поступают, то они могут обрабатывать то и там , Например, я опубликовал одно событие в Кафке около 3 часов дня, но оно было обработано в партии Время партии: 2020/02/20 13: 37: 30

Мой вопрос - что такое "Время партии" "в Spark UI. И почему это показывает прошлое время, когда оно имеет текущее произведенное событие. И чем он отличается от Время передачи

Конфигурация Spark

"spark.shuffle.service.enabled", "true"
"spark.streaming.receiver.maxRate", "10000"
"spark.streaming.kafka.maxRatePerPartition", "600"
"spark.streaming.backpressure.enabled", "true"
"spark.streaming.backpressure.initialRate", "10000"
"spark.streaming.blockInterval", "100ms"
"spark.executor.extraJavaOptions", "-XX:+UseConcMarkSweepGC"

...