У меня есть итеративный алгоритм, который обрабатывает 10-дневное скользящее окно. На каждой итерации последняя дата записывается в Hive, а на следующий день загружается.
Я использую трюк с RDD / DS, чтобы сломать линию искры.
Представление исполнителей в Spark UI показывает, что я трачу 25% в GC. Удвоение памяти исполнителя не меняет это и не отключает кэширование.
Может ли кто-нибудь посоветовать какие-либо настройки, которые я мог бы изменить, или какие-либо шаги в коде, которые я мог бы предпринять для решения проблемы?
Edit:
Использование сборщика мусора G1 уменьшило, но не устранило проблему.