Я создаю кластер в Google DataCroc со следующими характеристиками:
Master Standard (1 master, N workers)
Machine n1-highmem-2 (2 vCPU, 13.0 GB memory)
Primary disk 250 GB
Worker nodes 2
Machine type n1-highmem-2 (2 vCPU, 13.0 GB memory)
Primary disk size 250 GB
Я также добавляю в Initialization actions
файл .sh
из этого репозитория , чтобыиспользуйте цеппелин.
Код, который я использую, отлично работает с некоторыми данными, но если я использую большее количество, я получаю следующую ошибку:
Container killed by YARN for exceeding memory limits. 4.0 GB of 4 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead.
Я видел такие сообщения: Контейнер уничтожен YARN за превышение памяти ... , где рекомендуется изменить yarn.nodemanager.vmem-check-enabled
на false
.
Я немного смущен, хотя.Все эти конфигурации происходят, когда я инициализирую кластер или нет?
Кроме того, где именно находится yarn-site.xml
?Я не могу найти его в мастере (не могу найти его в /usr/lib/zeppelin/conf/
, /usr/lib/spark/conf
, /usr/lib/hadoop-yar/
), чтобы изменить его, и если он изменился, что мне нужно для «перезагрузки»?