Завершение работы фермы серверов - PullRequest
2 голосов
/ 13 ноября 2008

Как крупные серверные фермы обрабатывают изящное завершение всей или части фермы? Я имею в виду плановые и незапланированные случаи, такие как:

  • «Нам нужно отключить стойку 42»
  • «Нам нужно работать над подачей питания на весь блок»
  • "Затмение! В UPS не хватает сока! Ааа!"
  • "AC не работает, температура воздуха составляет 125F и поднимается"

Вопросы, которые меня интересуют, заключаются в том, как люди справляются с секвенированием и запускают все это. Кроме того, мне приходит в голову, что это может легко смешаться с включением и выключением услуг и с системой повышения качества программного обеспечения.

(На данный момент я спрашиваю больше из любопытства, чем что-либо еще.)

Ответы [ 4 ]

1 голос
/ 13 ноября 2008

Компьютеры могут потреблять гораздо больше энергии, возвращаясь в оперативный режим, чем они работают, так как им приходится вращать все жесткие диски и вентиляторы, как правило, они сильно загружены процессором при запуске всех приложений и так далее. У большинства магазинов будет установленная последовательность, которая поражает стартапы, поэтому они не максимизируют кругооборот и должны начинать все сначала. Это также важно, если у вас есть несколько приложений, которые ожидают соединения с базой данных, или несколько веб-серверов, которым нужно общаться с серверами приложений. Обычно вы начинаете снизу вверх и расставляете стартапы на 30 секунд до минуты, в зависимости от того, сколько блоков в вашей схеме.

0 голосов
/ 06 марта 2012

Имейте в виду, что "большие серверные фермы" предназначены для того, чтобы никогда не отключаться, если они не обязаны это делать. Это означает, что это возможное, но очень далекое событие, и когда это происходит, вы действительно спешите. Любой другой вариант использования, такой как выключение стойки или выполнение работ на линиях электропередачи, будет планироваться как можно раньше.

Вы действительно будете спешить, когда все пойдет не так.

Например, у генераторов заканчивается топливо (обычно они сохраняют как минимум один полный рабочий день запаса и имеют контракты на своевременную поставку, поэтому мы говорим о большой катастрофе здесь) или подобные события, вы Я буду знать, что это произойдет с часами времени, чтобы закрыть вещи. Или система HVAC полностью выходит из строя, тогда у вас есть несколько минут, чтобы отключить все, прежде чем температура поднимется слишком сильно.

Я здесь не эксперт, я нахожусь на другой стороне баррикады (заказчик центров обработки данных), но я думаю, что у них будут системы для управления отключением всех систем, которыми они управляют, и они просто отключить питание систем клиентов, которыми они не могут управлять, и правильно отключить их.

Ферма будет в конечном итоге снова включаться по одной зоне, по одной стойке за раз, когда все системы снова подключатся к сети и будут готовы к полной загрузке (ИБП, генераторы, системы отопления, вентиляции и кондиционирования и т. Д.). Когда они имеют полный контроль над системами (то есть не у клиентов, а у частных ферм), они обычно будут постепенно подавать переменный ток во все каналы, и серверы будут автоматически включаться (если это настроено, и многие серверы могут даже иметь настройку). например, «включите питание после случайного времени максимум X минут»), или они получат команду на включение через систему управления освещением, такую ​​как IPMI или аналогичные системы.

0 голосов
/ 13 ноября 2008

Ах, теперь я понимаю ваш вопрос более четко.

Такие продукты, как iBootBar из дата-зонд , позволяют контролировать и управлять электропитанием удаленных устройств. Интеллектуальная система может контролировать ток потребления каждого устройства, чтобы убедиться, что оно работает в номинальных пределах. В противном случае оно может перевести оборудование в автономный режим и задействовать запасное устройство для его замены, наблюдая за начальным скачком напряжения и ожидая стабилизации питания перед включением следующего устройства.

0 голосов
/ 13 ноября 2008

Один из методов заключается в зеркалировании активных машин при временной горячей замене и, при условии, что доступ осуществляется через сеть, прерывается путем перенастройки маршрутизатора для перенаправления трафика на зеркала. Этот процесс может быть автоматизирован для незапланированных отключений.

При плановом обслуживании некоторые просто уведомляют своих пользователей, что система будет недоступна в течение определенного окна.

Резервные источники питания и газовые генераторы решают большинство проблем, связанных с энергопотреблением, опять же с помощью автоматического переключения при отказе.

...