Hadoop namenode: единая точка отказа - PullRequest
25 голосов
/ 21 декабря 2010

Наменод в архитектуре Hadoop - это единственная точка отказа.

Как люди, имеющие большие кластеры Hadoop, справляются с этой проблемой?вступает во владение в случае отказа основного?

Ответы [ 3 ]

24 голосов
/ 21 декабря 2010

Yahoo имеет определенные рекомендации для параметров конфигурации при разных размерах кластера, чтобы учесть сбой NameNode.Например:

Единственная точка отказа в кластере Hadoop - это NameNode.Хотя потеря любого другого компьютера (периодически или постоянно) не приводит к потере данных, потеря NameNode приводит к недоступности кластера.Постоянная потеря данных NameNode приведет к неработоспособности HDFS кластера.

Поэтому в этой конфигурации необходимо предпринять еще один шаг для резервного копирования метаданных NameNode

Facebook использует aдоработанная версия Hadoop для ее хранилищ данных;он имеет некоторые оптимизации , которые направлены на надежность NameNode.В дополнение к патчам, доступным на github, Facebook, похоже, использует AvatarNode специально для быстрого переключения между первичным и вторичным именами узлов. Блог Дхрубы Бортхакура содержит несколько других записей, предлагающих дальнейшее понимание NameNode как единственной точки отказа.

Редактировать: Дополнительная информация об улучшениях Facebook в NameNode .

6 голосов
/ 18 января 2016

Высокая доступность Наменод был представлен с Hadoop 2.x релиз.

Это может быть достигнуто в двух режимах - С NFS и С QJM

Но высокая доступность с Диспетчер журнала кворума (QJM ) является предпочтительным вариантом.

В типичном кластере высокой доступности два отдельных компьютера настроены как узлы имен.В любой момент времени ровно один из узлов имен находится в активном состоянии, а другой - в режиме ожидания. Active NameNode отвечает за все клиентские операции в кластере, в то время как Standby просто выступает в качестве подчиненного, поддерживая достаточно состояния, чтобы обеспечить быстрое переключение при сбое в случае необходимости.посмотрите ниже вопросы SE, которые объясняют полный процесс аварийного переключения.

Использование вторичного NameNode и высокая доступность в Hadoop 2.x

Как работает процесс отработки отказа Hadoop Namenode?

1 голос
/ 22 декабря 2010

Большие кластеры Hadoop имеют тысячи узлов данных и один узел имен. Вероятность отказа возрастает линейно с количеством машин (при прочих равных условиях). Поэтому, если Hadoop не справится со сбоями узла данных, он не будет масштабироваться. Поскольку все еще есть только один узел имени, существует единственная точка отказа (SPOF), но вероятность отказа все еще мала.

Это печально, но ответ Бккбрада о том, что Facebook добавляет возможность переключения при отказе к узлу имени, правильный.

...