Я использую простое структурированное потоковое приложение Spark, которое извлекает данные из Kafka Topi c. У меня есть Kafka Topi c с почти 1000 разделами. Я запускаю это приложение на 6-узловом кластере EMR с 4 ядрами и 16 ГБ оперативной памяти. Я заметил, что Spark пытается получить данные со всех разделов 1024 Kafka и после успешного запуска в течение нескольких итераций застревает со следующим исключением:
20/04/18 00:51:41 INFO ContextCleaner: Cleaned accumulator 101
20/04/18 00:51:41 INFO ContextCleaner: Cleaned accumulator 66
20/04/18 00:51:41 INFO ContextCleaner: Cleaned accumulator 77
20/04/18 00:51:41 INFO ContextCleaner: Cleaned accumulator 78
20/04/18 00:51:41 INFO BlockManagerInfo: Removed broadcast_2_piece0 on in memory (size: 4.5 KB, free: 2.7 GB)
20/04/18 00:51:41 INFO BlockManagerInfo: Removed broadcast_2_piece0 on ip- in memory (size: 4.5 KB, free: 2.7 GB)
20/04/18 00:51:41 INFO BlockManagerInfo: Removed broadcast_2_piece0 on ip- in memory (size: 4.5 KB, free: 2.7 GB)
Затем Sparks показывают RUNNING но он НЕ обрабатывает никаких данных.
Похоже на эту проблему, но у меня ничего не вышло возможно)