Spark Структурированное потоковое приложение зависло с удаленной трансляцией - PullRequest
0 голосов
/ 18 апреля 2020

Я использую простое структурированное потоковое приложение Spark, которое извлекает данные из Kafka Topi c. У меня есть Kafka Topi c с почти 1000 разделами. Я запускаю это приложение на 6-узловом кластере EMR с 4 ядрами и 16 ГБ оперативной памяти. Я заметил, что Spark пытается получить данные со всех разделов 1024 Kafka и после успешного запуска в течение нескольких итераций застревает со следующим исключением:

20/04/18 00:51:41 INFO ContextCleaner: Cleaned accumulator 101
20/04/18 00:51:41 INFO ContextCleaner: Cleaned accumulator 66
20/04/18 00:51:41 INFO ContextCleaner: Cleaned accumulator 77
20/04/18 00:51:41 INFO ContextCleaner: Cleaned accumulator 78
20/04/18 00:51:41 INFO BlockManagerInfo: Removed broadcast_2_piece0 on  in memory (size: 4.5 KB, free: 2.7 GB)
20/04/18 00:51:41 INFO BlockManagerInfo: Removed broadcast_2_piece0 on ip- in memory (size: 4.5 KB, free: 2.7 GB)
20/04/18 00:51:41 INFO BlockManagerInfo: Removed broadcast_2_piece0 on ip- in memory (size: 4.5 KB, free: 2.7 GB)

Затем Sparks показывают RUNNING но он НЕ обрабатывает никаких данных.

Похоже на эту проблему, но у меня ничего не вышло возможно)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...