Восстановить Hadoop NameNode Failure - PullRequest
5 голосов
/ 15 марта 2012

Сценарий 1:

Файл HDFS fsimage и editlog записывается в несколько мест, включая монтирование NFS.

A) Сбой демона NameNode: Решение: просто перезапустите процесс Namenode

B) Хост не работает там, где работает узел имени.

Решение:

  1. Запустите namenode на другом хосте с пустым dfs.name.dir
  2. Укажите dfs.name.dir на монтирование NFS, где у нас есть копия метаданных.ИЛИ
  3. Используйте параметр --importCheckpoint при запуске namenode после указания fs.checkpoint.dir на каталог контрольных точек из Secondary NameNode
  4. Измените fs.default.name на URI резервного имени хоста и перезапуститекластер со всеми ведомыми IP-адресами в подчиненном файле.

Примечание. Мы можем пропустить редактирование, которое могло произойти после последней контрольной точки.

Сценарий 2:

Файл HDFS fsimage записывается в один каталог.

A) Сбой демона NameNode: Решение: неизвестно

B) Хост не работает, где работает узел имени.

Решение:

  1. Создайте пустой каталог, указывающий на dfs.name.dir на каталог в (1)
  2. Запустите Namenode с -importCheckpoint после указания fs.checkpoint.dir на каталог контрольных точек из Secondary NameNode
  3. Изменитеfs.default.name к резервному URI имени хоста и перезапустите кластер со всеми ведомыми IP-адресами в подчиненном файле.

Таким образом, мы снова будем пропускать файлы, отредактированные после последней контрольной точки.

Пожалуйста, дайте мне знать, если мы можем вручную восстановить кластер.

1 Ответ

1 голос
/ 15 ноября 2012

В производственной среде вы должны запускать NameNodes в режиме HA с кворумом журналируемых узлов или общим хранилищем HA-NFS для файлов транзакций редактирования журнала.Если вы не хотите или не используете HA, вам нужно запустить NN, по крайней мере, с двумя каталогами хранения для обоих изображений и журналов редактирования, предпочтительно с одним в качестве точки монтирования NFS, монтируемой в мягком режиме, для автоматического сохранения системы имен вне машины.

Если у вас есть только один каталог хранения и нет конфигурации HA, то лучшее, что вы можете получить, - это контрольная точка за прошедший период - если вы потеряете все файлы.Если вы не потеряли файлы, вы можете попробовать опцию hadoop namenode -recover, как показано в этом сообщении , чтобы иметь возможность восстановить изображение плюс некоторые (или все) изменения.

...