Временные файлы Spark не удаляются автоматически - PullRequest
0 голосов
/ 31 января 2019

У меня есть клиент spark yarn, отправляющий задания, и когда он это делает, он создает каталог под моим «spark.local.dir», в котором есть файлы, такие как:

__spark_conf__8681611713144350374.zip
__spark_libs__4985837356751625488.zip

Есть ли способ, которым это может бытьавтоматически очищается?Всякий раз, когда я отправляю задание на поиск, я снова вижу новые записи в той же папке.Это наводняет мой каталог, что я должен установить, чтобы сделать это автоматически?

Я просмотрел несколько ссылок онлайн даже на SO, но не смог найти решение этой проблемы.Все, что я нашел, это способ указать путь к каталогу с помощью «spark.local.dir».

1 Ответ

0 голосов
/ 31 января 2019

Существует три SPARK_WORKER_OPTS для поддержки очистки папки рабочего приложения, скопированные здесь для дальнейшей справки: из Spark Doc

  1. spark.worker.cleanup.enabled, значение по умолчанию - false, Включить периодическийочистка рабочих / прикладных каталогов.Обратите внимание, что это влияет только на автономный режим, так как YARN работает по-другому.Очищаются только каталоги остановленных приложений.

  2. spark.worker.cleanup.interval, по умолчанию 1800, т. Е. 30 минут. Контролирует интервал в секундах, с которым работник очищаетстарые рабочие каталоги приложений на локальном компьютере.

  3. spark.worker.cleanup.appDataTtl, по умолчанию 7 * 24 * 3600 (7 дней), количество секунд для сохранения работы приложениясправочники на каждого работника.Это время жизни и должно зависеть от объема доступного дискового пространства.Журналы и файлы приложений загружаются в каждую рабочую директорию приложения.Со временем рабочие каталоги могут быстро заполнить дисковое пространство, особенно если вы выполняете задания очень часто.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...