Я видел как Hadoop, так и файловую систему Google, но никто особо не упомянул HDFS - распределенную файловую систему, которая поставляется с Hadoop. Вы можете установить желаемый уровень избыточности и потерять случайный узел, не потеряв свои данные.
Одно предостережение: вам нужно убедиться, что одна машина, на которой хранится «namenode» (главная машина и единая точка отказа в кластере HDFS), работает надежно - зеркалирование RAID, резервное копирование, работает. Вы теряете наменоде, вы теряете кластер.