Что происходит в случае сбоя локального твердотельного накопителя в экземпляре механизма вычислений Google Cloud Platform? - PullRequest
3 голосов
/ 27 января 2020

Что происходит, когда один из нескольких локальных твердотельных накопителей, подключенных к экземпляру вычислительного механизма, имеет аппаратный сбой? В частности:

  1. Автоматически ли обнаруживается сбой в Google Cloud Platform?
  2. Есть ли уведомление, например по электронной почте?
  3. Сколько времени требуется для диск, подлежащий замене?
  4. Остановлена ​​ли виртуальная машина и перезапущена ли после замены? Или это горячая замена?
  5. Очевидно, что данные на этом SSD потеряны, однако, что происходит с данными на других SSD, подключенных к той же виртуальной машине?

Редактировать. Я знаю об «эфемерной» природе локальных твердотельных накопителей и планирую реплицировать мои данные на несколько машин в разных зонах моего основного региона и, по крайней мере, одну репликацию в совершенно другой регион. База данных, которую я планирую использовать, - «дата-центр / стойка осведомлена». Я особенно ищу документацию / информацию о том, как Google Cloud Platform обрабатывает аппаратные сбои в локальных твердотельных накопителях.

Ответы [ 3 ]

2 голосов
/ 27 января 2020

Возможно, вы захотите использовать постоянные диски, потому что ваш вариант использования может не применяться:

Как добавление локальных твердотельных накопителей читает:

Локальные твердотельные накопители подходят только для временного хранения , таких как кэши, пространство обработки или данные с низким значением. Если вы храните важные данные на локальном устройстве SSD, вы также должны хранить эти же данные в долговременном хранилище.

1 голос
/ 27 января 2020
  1. Да
  2. Зависит от того, что сбои на уровне блоков - это просто, и они напрямую передаются гостю. Таким образом, вы можете увидеть ошибки чтения в вашем dmesg или аналогичном. Если происходит сбой всего устройства, вы получаете сообщение hostError в журналах облачного ведения журнала для экземпляра. Что будет дальше, зависит от вашей политики обслуживания.
  3. Диски не заменяются с точки зрения пользователя - вы можете получить только новый экземпляр. (Конечно, Google внутренне заменяет сломанное оборудование, но клиенту это не предоставляется) , у вас есть 60 минут восстановления . Однако на практике это может означать, что ваш экземпляр проводит 60 минут в состоянии RUNNING, но не загружается при попытке вернуть сломанный локальный твердотельный накопитель обратно, а затем в конечном итоге дать сбой и загрузиться с пустыми локальными твердотельными накопителями.

    В целом, я рекомендую рассматривать экземпляр как домен сбоя, а не отдельные диски, так как любая проблема может привести к hostError экземпляра вместо частичного сбоя.

0 голосов
/ 27 января 2020

Я хотел бы уточнить # 5.

Если ваша виртуальная машина испытывает ошибка хоста google состояния документации :

Если система хоста испытывает ошибку хоста, Compute Engine делает все возможное, чтобы повторно подключиться к виртуальной машине и сохранить локальные данные SSD, но может быть неудачной. Если попытка успешна, виртуальная машина перезапускается автоматически. Однако, если попытка переподключения не удалась, виртуальная машина перезагружается без данных.

Это означает, что вы не гарантированно получите свои данные обратно. Что не очень интересно, планируйте соответственно и храните ваши данные в более надежных решениях, таких как постоянные диски или корзины.

...