Question

На это может быть очевидный ответ, но я не смог найти ничего после долгих поисков.

В типичной программе я обычно добавляю сообщения журнала в различные части кода и определяю, где находится узкое место. Однако в Spark / PySpark преобразования оцениваются лениво, что означает, что большая часть кода выполняется почти за постоянное время (по крайней мере, не зависит от размера набора данных) до тех пор, пока в конце не будет вызвано действие.

Так, как можно было бы синхронизировать отдельные преобразования и, возможно, сделать некоторые части кода более эффективными, если по-другому, где это необходимо и возможно?

wind · Answer 1 · 08 мая 2018

Вы можете использовать Spark UI, чтобы увидеть план выполнения ваших заданий и время их выполнения.Затем вы можете оптимизировать свои операции, используя эту статистику.Вот очень хорошая презентация о мониторинге Spark Apps с использованием Spark UI https://youtu.be/mVP9sZ6K__Y (Spark Sumiit Europe 2016, автор Jacek Laskowski)

Как отладить медленное приложение PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как отладить медленное приложение PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов