Как отладить медленное приложение PySpark - PullRequest
0 голосов
/ 08 мая 2018

На это может быть очевидный ответ, но я не смог найти ничего после долгих поисков.

В типичной программе я обычно добавляю сообщения журнала в различные части кода и определяю, где находится узкое место. Однако в Spark / PySpark преобразования оцениваются лениво, что означает, что большая часть кода выполняется почти за постоянное время (по крайней мере, не зависит от размера набора данных) до тех пор, пока в конце не будет вызвано действие.

Так, как можно было бы синхронизировать отдельные преобразования и, возможно, сделать некоторые части кода более эффективными, если по-другому, где это необходимо и возможно?

1 Ответ

0 голосов
/ 08 мая 2018

Вы можете использовать Spark UI, чтобы увидеть план выполнения ваших заданий и время их выполнения.Затем вы можете оптимизировать свои операции, используя эту статистику.Вот очень хорошая презентация о мониторинге Spark Apps с использованием Spark UI https://youtu.be/mVP9sZ6K__Y (Spark Sumiit Europe 2016, автор Jacek Laskowski)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...