Профилирование памяти для py spark - PullRequest
0 голосов
/ 03 июля 2018

Я читал о том, как профилировать мой искровой кластер. Примечание: я использую pyspark.

Мне удалось интегрировать cProfiler для получения метрик времени как на уровне программы драйвера, так и на каждом уровне RDD. Но cProfile только помогает со временем.

Как мне профилировать использование памяти моим приложением spark (написанным с использованием py-spark)?

Я заинтересован в том, чтобы найти узкие места как в памяти, так и во времени, чтобы я мог пересмотреть / реорганизовать этот код.

Кроме того, иногда, когда я проталкиваю изменения в производство, это приводит к OOM (у исполнителя), и я в конечном итоге реактивно исправляю код. Я думаю, что интеграция с некоторым профилировщиком памяти поможет мне обнаружить проблему во время самого тестирования.

...