Пожалуйста, потерпите меня, потому что я все еще новичок в Spark.
У меня есть кластер GCP DataProc, который я использую для выполнения большого количества заданий Spark, по 5 за раз.
Кластер - это 1 + 16, 8 ядер / 40 ГБ памяти / 1 ТБ на каждый узел.
Возможно, я что-то неправильно понимаю или неправильно что-то делаю, но в настоящее время у меня запущено 5 заданий одновременно, и пользовательский интерфейс Spark показывает, что используются только 34/128 vcore, и они не распределены равномерно (Задания выполнялись одновременно, но распределение - 2/7/7/11/7. Для каждого работающего контейнера выделено только одно ядро.
Я использовал флаги --executor-cores 4
и --num-executors 6
, которые, похоже, ничего не изменили.
Может ли кто-нибудь предложить некоторую информацию / ресурсы о том, как я могу настроить эти задания для использования всех доступных ресурсов?