У меня есть задание потоковой передачи, которое запускается на EMR, читает сообщения от Kafka и выводит на S3.
Я использую emr-5.17.0, т.е. hadoop 2.8.4, spark 2.3.1
Проблема в том, что случайные файлы накапливаются в: / mnt / yarn / usercache / hadoop / appcache / application_1540126328960_0001 /
и никогда не удаляются, пока у меня не закончатся место на диске
Файлы выглядят так: shuffle_328_127_0.index, shuffle_328_134_0.data
Я пытался обновить политику Yarn следующим образом: yarn.nodemanager.localizer.cache.cleanup.interval-ms 300000 yarn.nodemanager.localizer.c.target-size-mb 5000
Но это не решило проблему.
В настоящее время я перезагружаю работу автоматически и запускаю новую каждые несколько часов, а когда приложение останавливается, оно удаляеткеш
Что можно сделать, чтобы пряжа удалила файлы кеша?
Спасибо