Добавление разных файлов на разных узлах hadoop - PullRequest
1 голос
/ 13 декабря 2011

Когда мы добавляем файлы с

bin / hadoop dfs -put input_folder input

по этой команде в HDFS. Когда мы добавляем файлы, они реплицируются на все узлы.

Есть ли способ, с помощью которого мы можем распространять разные файлы на разных узлах, значит, предположим, у меня есть 4 файла A, B, C, D. Я добавлю файлы A и B на узел 1 и оставлю на узле 2. Возможен ли этот сценарий?

Если да, то что происходит в случае сбоя узла?

1 Ответ

1 голос
/ 13 декабря 2011

Я предполагаю, что вы не изменили свой коэффициент репликации. По умолчанию 3, что означает, что у вас есть три реплики из каждого файла. если у вас есть 2 узла данных, все файлы будут реплицированы на все узлы данных. уменьшайте это значение до тех пор, пока оно не будет соответствовать вашим потребностям.

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

Если узлы не работают и других реплик не существует, Вы не можете получить доступ к этим файлам

...