Мы сталкиваемся с ошибкой No space on device
при выполнении заданий Spark в нашем кластере YARN.
Это имеет несколько плохих результатов. Во-первых, задания Spark занимают больше времени или терпят неудачу. Во-вторых, поскольку диск заполняется, узлы отключаются с помощью YARN NodeManager, удаляются из пула и помечаются как нездоровые.
Есть ли способ настроить максимальное дисковое пространство, которое задания могут использовать на каждом NodeManager?
Я надеюсь, что смогу сказать что-то вроде: «У меня есть диск объемом 1 ТБ, вы можете использовать до 900 ГБ для работы», и если YARN управляет этими ресурсами, это способ, который никогда не приведет к заполнению диска. .
В качестве альтернативы, как я могу убедиться, что YARN продолжает удалять старые данные со своего локального диска, чтобы они не заполнялись? Мне все равно, если это приведет к провалу работы. Это неизбежно, когда вы злоупотребляете ресурсами.