Вынудить Hadoop distcp выполняться на определенном хосте - PullRequest
0 голосов
/ 23 октября 2019

У меня есть cronjobs, которые периодически скачивают некоторые файлы и копируют их в HDFS. Я пытаюсь использовать distcp для копирования этих файлов с локальной FS в HDFS с флагом -atomic. Поскольку distcp выполняется как задание mapreduce, оно может запускаться на любом из узлов кластера hadoop. Я хочу, чтобы он запускался на узле, где работает cronjob. Есть ли возможность принудительно привязать его к определенному узлу в кластере hadoop?

...