На что следует обратить внимание при оптимизации задачи Spark, чтобы избежать чрезмерного создания локальных журналов - PullRequest
0 голосов
/ 10 июля 2020

Согласно анализу журнала, причиной перезапуска моего диспетчера ресурсов пряжи EMR является NPE cra sh, вызванная ненормальным отказом диска узла пряжи.

На что следует обратить внимание при оптимизации задачи искры в чтобы избежать чрезмерного количества локальных журналов, создаваемых задачей во время выполнения процесса, что приведет к тому, что узел будет помечен как неработоспособный, что приведет к ненормальным условиям.

Или какие параметры я должен настроить, чтобы уменьшить количество журналов, которые хранится на месте

1 Ответ

1 голос
/ 11 июля 2020

Вы можете указать spark.history.fs.cleaner.maxAge и spark.history.fs.cleaner.interval для очистки файловой системы. Подробнее здесь: https://aws.amazon.com/premiumsupport/knowledge-center/core-node-emr-cluster-disk-space/

...