Как профилировать рабочую память Python PySpark? - PullRequest
0 голосов
/ 25 августа 2018

У меня есть приложение, которое использует PySpark для извлечения функций, но приложение всегда уничтожается с ошибкой.

Container killed by YARN for exceeding memory limits. 14.4 GB of 14 GB physical memory used.
Consider boosting spark.yarn.executor.memoryOverhead.

Из веб-интерфейса Spark, оно всегда уничтожается оператором combByKey.

Из журнала NodeManager Он показывает так много памяти, используемой рабочим процессом Python.

Но я никогда не устанавливал память для рабочего Python.Из документации есть настройка spark.python.worker.memory, которая по умолчанию составляет 512 м, но один рабочий процесс Python использовал почти 10 г памяти, и пряжа уничтожила контейнер.

Почему настройка spark.python.worker.memory не работает?

Может кто-нибудь показать мне какую-нибудь ссылку для профилирования рабочей памяти Python?

Большое спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...