Спасибо за интересные ссылки. Очевидно, что каждая распределенная система уникальна, и каждый сбой уникален, поэтому его сложно обобщить. Вот некоторые варианты:
Перебои случаются даже с лучшими парнями на блоке ... так что лучше планируйте свои.
Построить распределенные системы сложно, поэтому вам нужен опыт и опытные друзья.
Ручные изменения являются частой причиной ... явно не сказано в описании AWS, но явно подразумевается.
Отключения часто являются «возникающими» явлениями, когда простая ошибка приводит к тому, что многие системы взаимодействуют таким образом, что экспоненциально растет. В записи AWS это называется «штормом», и я был свидетелем подобных «штормов» в больших распределенных системах. Степень связи и простые аспекты, такие как параметры отката, могут иметь значение для возмущения, которое растет экспоненциально или затухает экспоненциально. Подумайте о мосте Tacoma Narrows - возможно, аналогия натянута, но настройка нескольких простых параметров может избежать деструктивных резонансов.
Обезьяна Хаоса Netflix интересна. Ребята из «Lean» научили нас, что если что-то сложно (например, тестирование или развертывание), то вы должны делать это часто, пока это не станет более трудным. Возможно, сбой / отказоустойчивость системы - следующий рубеж для этого подхода.