Я думаю, что главное в этом - повышение надежности системы - см. Статью Джеффа Этвуда «Об ужасе кодирования» о Netflix Chaos Monkey , который случайным образом отключает серверы. Если вы знаете, что сервер в какой-то момент выходит из строя (и большинство его отключат), вы начинаете планировать эту ситуацию. Вы добавляете избыточность, где это необходимо, вы укрепляете код, чтобы справиться с подобными ситуациями, и вы делаете это сейчас, вместо того, чтобы отталкивать его, что легко сделать, когда вы непосредственно не чувствуете боль.
Суть в том, что не каждое битовое изменение приведет к разрушению системы. Он может просто делать такие вещи, как испорченные данные или межпроцессное взаимодействие. В этом случае каждый компонент в вашей системе должен выполнять свою собственную проверку ошибок и не полагать, что он всегда будет получать хорошие данные от других компонентов.
Имея тестовую систему, которая вызывает подобные ошибки, у вас есть возможность исправить их соответствующим образом, прежде чем они станут серьезной проблемой для ваших клиентов.