Сбой имени узла после перезапуска узлов кластера HA hadoop после выключения питания - PullRequest
0 голосов
/ 30 мая 2019

У меня настроен HA-кластер HA с 2 узлами имен и узлами журнала с автоматическим управлением отработки отказа. начинается штраф после запуска после формата namenode. Но происходит сбой при перезапуске кластера. Я также пытался поднять кластер в порядке.

  1. запускать все узлы журнала
  2. запуск активного имени узла
  3. запустить резервный узел (с помощью начальной загрузки) и запустить имя узла
  4. запустить zkserver на всех узлах
  5. запустить все узлы данных.
  6. отформатируйте zkfc на активном узле, затем запустите
  7. отформатируйте zkfc на резервном узле, затем запустите.

работает нормально до стадии 5, и все узлы не работают (оба узла имен работают и находятся в режиме ожидания). Когда я запустил zkfc, узел имен не работает и получение узла журнала ошибок не форматируется.

(перед этим шагом я успешно запустил установку, отформатировав активный узел имени, во второй раз, когда я запустил, я удалил формат узла имени в шаге 2):

как запустить установку после завершения работы и перезагрузки?

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/local/hadoop/data/nameNode</value>
<final>true</final>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/local/hadoop/data/dataNode</value>
<final>true</final>
</property>

<property>
<name>dfs.replication</name>
<value>2</value>
</property>

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

<property>
<name>dfs.nameservices</name>
<value>ha_cluster</value>
</property>

<property>
 <name>dfs.ha.namenodes.ha_cluster</name>
 <value>sajan,sajan2</value>
 </property>

 <property>
 <name>dfs.namenode.rpc-address.ha_cluster.sajan</name>
 <value>192.168.5.249:9000</value>
 </property>

 <property>
 <name>dfs.namenode.rpc-address.ha_cluster.sajan2</name>
 <value>192.168.5.248:9000</value>
 </property>

 <property>
 <name>dfs.namenode.http-address.ha_cluster.sajan</name>
 <value>192.168.5.249:50070</value>
 </property>

 <property>
 <name>dfs.namenode.http-address.ha_cluster.sajan2</name>
 <value>192.168.5.248:50070</value>
 </property>

 <property>
 <name>dfs.namenode.shared.edits.dir</name>
 <value>qjournal://192.168.5.249:8485;192.168.5.248:8485;192.168.5.250:8485/ha_cluster</value>
 </property>
 <property>
 <name>dfs.client.failover.proxy.provider.ha_cluster</name>
 <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
 </property>
 <property>
 <name>dfs.ha.automatic-failover.enabled</name>
 <value>true</value>
 </property>
 <property>
 <name>ha.zookeeper.quorum</name>
 <value>192.168.5.249:2181,192.168.5.248:2181,192.168.5.250:2181,192.168.5.251:2181,192.168.5.252:2181,192.168.5.253:2181</value>
 </property>
 <property>
 <name>dfs.ha.fencing.methods</name>
 <value>sshfence</value>
 </property>
 <property>
 <name>dfs.ha.fencing.ssh.private-key-files</name>
 <value>/home/hadoop/.ssh/id_rsa</value>
 </property>

</configuration>

1 Ответ

0 голосов
/ 31 мая 2019

Если вы хотите остановить сервис, используйте приведенный ниже порядок.Я потерял 2 рабочих дня, чтобы понять это.

  1. остановка всех узлов имени.
  2. остановка всех узлов журнала.
  3. остановка всех узлов данных.
  4. остановка при сбое через службу.
  5. остановка zkserver
...