Вопрос довольно общий.Документация Spark гласит, что на самом деле непросто найти узкие места прямо или косвенно даже для самых маленьких программ (таких как WordCount).Узкое место может быть в операциях ввода-вывода, памяти в ЦП, ЦП, где происходит сборка мусора, в сети и других внутренних факторах, которые могут возникнуть (например, задержки планировщика, переполнения буферной памяти и т. Д.).
Так что, возможно, вам придется копать глубже, помня следующее:
a.У вас есть много ядер, свободно доступных для распределения нагрузки на сцену.б.Сколько исполнителей настроено для выполнения этой работы c.является ли чтение / запись данных объемом 200 ГБ оправданным для выполняемой вами работы.д.свободная оперативная память на сервере до запуска задания.е.Перейдите в менеджер ресурсов YARN, чтобы увидеть ресурсы вокруг памяти и процессорных ядер (если вы используете YARN).