Я выполнил следующие операции над rdd с 4-мя разделами в функции foreachRDD DStreams моего приложения для потоковой передачи искры:
print rdd.count()
print rdd.collect()
Первые операторы rdd.count()
обычно выполняются, а второй оператор всегдазаблокирован состоянием RUNNING, как показано на следующем рисунке:
Однако, когда я смотрю на журнал, он показывает, что задача выполнена.
18/11/09 16:45:30 INFO executor.Executor: Finished task 3.0 in stage 26.0 (TID 555). 197621638 bytes result sent via BlockManager)
В чем проблема?
Версия spark - pyspark == 2.2.1, кластер - искра на пряже.