Итерационный алгоритм Spark - исполнители проводят 25% времени в GC - PullRequest
0 голосов
/ 02 ноября 2018

У меня есть итеративный алгоритм, который обрабатывает 10-дневное скользящее окно. На каждой итерации последняя дата записывается в Hive, а на следующий день загружается.

Я использую трюк с RDD / DS, чтобы сломать линию искры.

Представление исполнителей в Spark UI показывает, что я трачу 25% в GC. Удвоение памяти исполнителя не меняет это и не отключает кэширование.

Может ли кто-нибудь посоветовать какие-либо настройки, которые я мог бы изменить, или какие-либо шаги в коде, которые я мог бы предпринять для решения проблемы?

Edit:

Использование сборщика мусора G1 уменьшило, но не устранило проблему.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...