В кластере 5 брокеров Кафка (2.3.0
). В момент времени t
один брокер, которого мы назовем brokerA
, вышел из строя (проблема с оборудованием) и не работал. В момент t + 24 hours
мы перезапустили этот brokerA
.
. Как только мы перезапустили его, через несколько минут мы поняли, что множество ISR сокращается, и, таким образом, многие производители не смогли произвести (причина min_isr
не было выполнено для многих разделов).
Это оказало огромное влияние на наших клиентов, сделало также экземпляры разбитых зеркал (потому что не удалось произвести из-за min isr).
Наши мысли в том, что когда мы перезапустили brokerA
, он должен был догнать множество реплик и мог оказать большое влияние на пропускную способность сети, в результате чего все реплики в кластере не могли синхронизироваться c с другим лидером, таким образом уменьшая количество наборов ISR.
Мой вопрос: есть ли способ перезапустить брокера, не позволяя ему извлекать из всех тем / разделов в одно и то же время, например, шаг за шагом, чтобы сформировать трафик c немного (идет медленно .. О), а может и не насыщать сеть (может ЦП)?