Я использую JupyterHub в кластере AWS EMR. Я использую EMR версии 5.16
Я отправил приложение spark, используя ноутбук pyspark3.
Мое приложение пытается записать данные 1 ТБ в s3.
Я использую функцию автоматического масштабирования EMR для масштабирования нас на узле задачи.
Аппаратные конфигурации:
1. Главный узел: 32 ГБ ОЗУ с 16 ядрами
Узел 2.Core: 32 ГБ оперативной памяти с 16 ядрами
3. Узел задачи: 16 ГБ с 8 ядрами в каждом. (Узлы задачи увеличиваются до 15)
Я заметил, что приложение Spark убивается после запуска в течение 50-60 минут.
Я попробовал отладку:
1. В моем кластере все еще есть возможности для расширения. Так что это не проблема с нехваткой ресурсов.
2. Ливий сеанс также убит.
3. В журнале работ я увидел сообщение об ошибке RECVD TERM SIGNAL «Отключение крюка»
получил "
Обратите внимание:
1. Я сохранил: spark.dynamicAllocation.enabled = true "
2. Я использую планировщик ярмарки пряжи с олицетворением пользователя в Jupiter hub
Не могли бы вы помочь мне разобраться в проблеме и решить ее?