Одиночный датодан хранит больше данных в 5-узловом кластере Hadoop - PullRequest
0 голосов
/ 04 октября 2019

У меня есть 5-ти узловый кластер HDP версии 3.1.1. В этом 2 узла Name и 3 узла данных. Я поддерживаю коэффициент репликации по умолчанию 3. Но данные MAX хранятся только в первом узле данных. см. ниже использование дисков.

MASTER 1:

/dev/sdd1        63G   71M   60G   1% /opt/disk02
/dev/sdc1        63G   71M   60G   1% /opt/disk01

MASTER 2:
/dev/sdd1        63G  121M   60G   1% /opt/disk02
/dev/sdc1        63G  121M   60G   1% /opt/disk01

SLAVE 1:
/dev/sdd1        63G  4.0G   56G   7% /opt/disk02
/dev/sdc1       126G   14G  107G  12% /opt/disk01

SLAVE 2:
/dev/sdd1        63G  5.0G   55G   9% /opt/disk02
/dev/sdc1       126G  5.5G  114G   5% /opt/disk01

SLAVE 3:
/dev/sdc1       126G  5.0G  115G   5% /opt/disk01
/dev/sdd1        63G  4.0G   56G   7% /opt/disk02  

Как одинаково реплицировать данные во всех узлах данных?

Ответы [ 2 ]

0 голосов
/ 04 октября 2019

Hadoop автоматически контролирует место размещения данных и репликации, как уже упоминалось в Horatiu. Но возможно, что иногда данные могут быть искажены на одном или на одном узле.

HDFS может не всегда равномерно размещать данные на дисках по следующим причинам:

  1. Aмного записей и удалений
  2. Замена диска

Есть несколько вещей, которые нужно проверить.

  1. Есть ли какие-либо или другие файлы, размещенные с ручной репликациейfactor Control Replication factor для определенных файлов
  2. Является ли узел данных 1 хранящим ненужные журналы
  3. Попробуйте запустить балансировщик диска

Чтобы включить балансировщик дискаЗначение dfs.disk.balancer.enabled должно быть установлено в hdfs-site.xml.

См. Балансировщик диска HDFS

0 голосов
/ 04 октября 2019

Вы не можете точно контролировать, в каких узлах данных будет размещаться репликация, но в вашем случае она должна быть на каждом узле.

Может быть, использовать такие понятия, как https://www.waytoeasylearn.com/2018/01/rack-awareness-in-hadoop-hdfs.html стойки и использовать Clouderaили Hortonworks.

Также попробуйте сбалансировать ваши данные http://www.informit.com/articles/article.aspx?p=2755708&seqNum=5, так как проблема может быть решена.

Даже если ваш общий коэффициент репликации равен 3, возможно, для пути, он равен 1 или 2, лучше проверьте, что также HDFS можно указать коэффициент репликации для файла для увеличения доступности

...