Свойство репликации Hadoop не работает из кода зажигания
У меня есть сценарий использования, для которого я хочу переопределить коэффициент репликации hdfs по умолчанию из моего искрового кода. Для этого я установил репликацию hadoop следующим образом:
val sc = новый SparkContext (conf)
sc.hadoopConfiguration.set ( 'dfs.replication', '1').
Теперь мое задание на запуск запускается как задание cron с определенным интервалом и создает выходной каталог для соответствующего часа. Проблема, с которой я сталкиваюсь, заключается в том, что для 80% прогонов файлы создаются с коэффициентом репликации 1 (что желательно), а для остальных - в 20% случаев файлы создаются с коэффициентом репликации по умолчанию 2. Я не уверен, почему это происходит , Любая помощь будет оценена.