Проблемы настройки Spark - PullRequest
       8

Проблемы настройки Spark

0 голосов
/ 20 сентября 2018

spark performance tuning

сильный текст Почему этот этап выполняется с 1 потоком в конце?Из-за этого требуется много времени, чтобы закончить, я думаю, что здесь не достигается параллельный процесс.

Так кто-нибудь может это объяснить?

Ответы [ 2 ]

0 голосов
/ 20 сентября 2018

Вопрос довольно общий.Документация Spark гласит, что на самом деле непросто найти узкие места прямо или косвенно даже для самых маленьких программ (таких как WordCount).Узкое место может быть в операциях ввода-вывода, памяти в ЦП, ЦП, где происходит сборка мусора, в сети и других внутренних факторах, которые могут возникнуть (например, задержки планировщика, переполнения буферной памяти и т. Д.).

Так что, возможно, вам придется копать глубже, помня следующее:

a.У вас есть много ядер, свободно доступных для распределения нагрузки на сцену.б.Сколько исполнителей настроено для выполнения этой работы c.является ли чтение / запись данных объемом 200 ГБ оправданным для выполняемой вами работы.д.свободная оперативная память на сервере до запуска задания.е.Перейдите в менеджер ресурсов YARN, чтобы увидеть ресурсы вокруг памяти и процессорных ядер (если вы используете YARN).

0 голосов
/ 20 сентября 2018

Поскольку вы не указали более конкретной информации о том, что именно вы пытаетесь сделать, может быть только широкий ответ.

Наиболее распространенная причина, если у вас висит одна (или только несколько) задачбольший пул задач - перекос данных .

Другой вариант заключается в том, что задание, запускаемое данными, для вычисления которого может потребоваться больше времени (загрузка процессора)

Или ваша задача зависает на IO, что может указывать на насыщение канала сети / ввода-вывода.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...