Отключить репликацию только для вывода заданий Hadoop - PullRequest
4 голосов
/ 09 ноября 2011

Есть ли способ установить коэффициент репликации для вывода конкретного задания MapReduce, отличающийся от остальной части кластера (скажем, 1)? Мне бы хотелось, чтобы мой основной набор данных был 3х репликами (как сейчас), но вывод некоторых моих заданий быстро перемещается из кластера и в конечном итоге отбрасывается, поэтому репликация не требуется, и я мог бы использовать пространство .

Я мог бы использовать setrep , но я думаю, что я могу сделать это только после факта.

1 Ответ

7 голосов
/ 09 ноября 2011

Когда вы загружаете файл, вы можете переопределить коэффициент репликации DFS по умолчанию, передав

-D dfs.replication=1

Это должно сработать и при прохождении при вызове задания.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...