Некоторое время назад мы столкнулись с отказом кластера Redis (6 узлов, 3 ведущего, ведомого) в производственной среде, и соответствующие журналы приведены ниже. 1006 * согласно документации, приведенной здесь: https://redis.io/commands/cluster-info, состояние кластера изменяется на fail
состояние, когда:
cluster_state: Состояние в порядке, если узел может получать запросы. завершиться ошибкой, если есть хотя бы один отсек ha sh, который не связан (узел не связан), находится в состоянии ошибки (обслуживающий его узел помечен флагом FAIL) или если этот узел не может достичь большинства мастеров.
Однако я не могу понять, что привело кластер go в состояние сбоя и как воспроизвести ту же проблему снова и способы ее устранения.
ПРИМЕЧАНИЕ : Из-за свойства cluster-require-full-coverage no
, когда пара главный-подчиненный выходит из строя, состояние кластера по-прежнему отображается как ok
командой CLUSTER INFO
.