У меня есть приложение, которое использует PySpark для извлечения функций, но приложение всегда уничтожается с ошибкой.
Container killed by YARN for exceeding memory limits. 14.4 GB of 14 GB physical memory used.
Consider boosting spark.yarn.executor.memoryOverhead.
Из веб-интерфейса Spark, оно всегда уничтожается оператором combByKey.
Из журнала NodeManager Он показывает так много памяти, используемой рабочим процессом Python.
Но я никогда не устанавливал память для рабочего Python.Из документации есть настройка spark.python.worker.memory
, которая по умолчанию составляет 512 м, но один рабочий процесс Python использовал почти 10 г памяти, и пряжа уничтожила контейнер.
Почему настройка spark.python.worker.memory
не работает?
Может кто-нибудь показать мне какую-нибудь ссылку для профилирования рабочей памяти Python?
Большое спасибо.