Несколько томов и ограничение использования диска с Hadoop - PullRequest
2 голосов
/ 23 августа 2011

Я использую Hadoop для обработки большого набора данных. Я настроил узел hadoop для использования нескольких томов: один из них - это NAS с диском 10To, а другой - локальный диск с сервера объемом 400 ГБ.
Проблема в том, что, если я понял, узлы данных будут пытаться разместить одинаковое количество данных в каждом томе. Таким образом, когда я запускаю задание для большого набора данных, диск с 400 ГБ быстро заполняется, а на диске 10 To остается достаточно места. Затем моя программа уменьшения карты производит Hive freeze, потому что мой кластер включает безопасный режим ...
Я попытался установить свойство для ограничения использования диска узлом Data, но ничего не происходит: у меня все та же проблема. Надеюсь, что кто-то может мне помочь.

Ну, похоже, моя программа mapreduce включает безопасный режим, потому что:

The ratio of reported blocks 0.0000 has not reached the threshold 0.9990.

Я видел эту ошибку в веб-интерфейсе namenode. Я хочу отключить эту опцию с помощью свойства dfs.safemode.threshold.pct , но я не знаю, является ли это хорошим способом ее решения?

Ответы [ 2 ]

0 голосов
/ 05 мая 2017

Используйте параметр конфигурации dfs.datanode.du.reserved в $HADOOP_HOME/conf/hdfs-site.xml для ограничения использования диска.

Ссылка

<property> 
    <name>dfs.datanode.du.reserved</name> 
    <!-- cluster variant --> 
    <value>182400</value> 
    <description>Reserved space in bytes per volume. Always leave this much space free for non dfs use. 
  </description> 
  </property> 
0 голосов
/ 26 ноября 2015

Я думаю, вы можете обратиться за помощью к dfs.datanode.fsdataset.volume.choosing.policy.

<property><name>dfs.datanode.fsdataset.volume.choosing.policy</name><value>org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy</value>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...