Я смог ответить на некоторые из моих вопросов, прочитав технический документ Windows Azure Drives , в котором подробно объясняется, как создается диск Azure с использованием Page Blobs .Это означает, что он должен быть включен в Windows Azure Storage SLA , который гласит:
Windows Azure имеет отдельные SLA для вычислений и хранения.Что касается вычислений, мы гарантируем, что при развертывании двух или более экземпляров ролей в разных доменах сбоев и обновлении роли, с которыми вы сталкиваетесь в Интернете, будут иметь внешнее подключение не менее 99,95% времени.Кроме того, мы будем отслеживать все ваши отдельные экземпляры ролей и гарантируем, что в 99,9% случаев мы будем определять, когда процесс экземпляра роли не запущен, и инициировать корректирующие действия.
Для хранения мы гарантируем, что по крайней мере в 99,9% случаев мы будем успешно обрабатывать правильно отформатированные запросы, которые мы получаем для добавления, обновления, чтения и удаления данных.Мы также гарантируем, что ваши учетные записи хранения будут подключены к нашему интернет-шлюзу.
Это дает ежегодное время простоя около 26,28 минут для веб-ролей / рабочих ролей и 52,56минут для хранилища или ролей, которым требуется доступ к дискам Azure.В Windows Azure есть регионы, аналогичные тем, которые предлагает Amazon AWS, но внутри регионов они не имеют отдельных зон доступности.Вместо этого у них есть Обновление доменов и доменов сбоя , которые используются для развертывания обновлений и определения местоположения экземпляров роли на различных аппаратных стойках .Домены сбоев не настраиваются пользователем, поэтому, если вы хотите более высокий уровень доступности, вам нужно настроить отдельные службы в другом регионе.
Мне не удалось найти похожее описание того, как Amazon EBS диски созданы, но похоже, что они на самом деле НЕ поддерживаются Amazon S3 , а вместо этого представляют собой отдельную систему хранения.Amazon S3 SLA обеспечивает надежность 99.999999999% и доступность 99,99% , но все, что упоминается для EBS:
Тома Amazon EBS размещаются в определенной зоне доступности и могутзатем присоединитесь к экземплярам также в той же зоне доступности.
Каждый том хранения автоматически реплицируется в той же зоне доступности.Это предотвращает потерю данных из-за сбоя любого отдельного аппаратного компонента.
Amazon EBS также предоставляет возможность создавать моментальные снимки томов на определенный момент времени, которые сохраняются в Amazon S3.Эти моментальные снимки можно использовать в качестве отправной точки для новых томов Amazon EBS, и они обеспечивают защиту данных в течение длительного срока.Один и тот же моментальный снимок можно использовать для создания любого количества томов.
Они также указывают на то, что ожидаемая годовая частота отказов EBS составляет от 0,1% до 0,5% по сравнению с типичными жесткими дисками, которые выходят из строя приоколо 4% в год.Поскольку тома EBS полностью основаны на одной зоне доступности, также важно создавать моментальные снимки для резервных копий:
Тома EBS имеют встроенную избыточность, что означает, что они не будут выходить из строя в случае отказа отдельного диска илипроисходит какой-то другой одиночный сбой.Но они не так избыточны, как хранилище S3, которое реплицирует данные в несколько зон доступности: том EBS полностью находится в одной зоне доступности.Это означает, что создание резервных копий моментальных снимков, которые хранятся в S3, важно для долгосрочной защиты данных.
В последующем отчете о недавнем отключении EBS / EC2 содержится гораздо больше подробностей об архитектуре EBS и указывается, что триггер был недопустимым изменением конфигурации сети. Это изменение вызвало диссоциацию ряда томов с их зеркалами, и quickly led to a “re-mirroring storm,” where a large number of volumes were effectively “stuck” while the nodes searched the cluster for the storage space it needed for its new replica.
Это в сочетании с несколькими условиями гонки, неправильными тайм-аутами отсрочки и ошибками программного обеспечения вызвало длительное отключение, которое затронуло несколько зон доступности. Amazon заявляет, что они предпринимают ряд действий, чтобы предотвратить это в будущем, в том числе делают плоскость управления EBS более терпимой к сбоям в отдельных зонах доступности.
В итоге системы, которые были рассчитаны на ожидание и терпение отказов , были намного менее подвержены отключению AWS. Как минимум, любая система, использующая диски Azure или Amazon EBS, должна создавать регулярные резервные копии с использованием предоставленной функции моментального снимка и может даже захотеть рассмотреть возможность отправки моментального снимка в отдельный регион или полностью отдельный поставщик хранилища.