Почему статус задачи не согласуется между журналами и веб-интерфейсом spark? - PullRequest
0 голосов
/ 09 ноября 2018

Я выполнил следующие операции над rdd с 4-мя разделами в функции foreachRDD DStreams моего приложения для потоковой передачи искры:

print rdd.count()
print rdd.collect()

Первые операторы rdd.count() обычно выполняются, а второй оператор всегдазаблокирован состоянием RUNNING, как показано на следующем рисунке: enter image description here

Однако, когда я смотрю на журнал, он показывает, что задача выполнена.

18/11/09 16:45:30 INFO executor.Executor: Finished task 3.0 in stage 26.0 (TID 555). 197621638 bytes result sent via BlockManager)

В чем проблема?

Версия spark - pyspark == 2.2.1, кластер - искра на пряже.

...