Исключение разъединения с одним из брокеров kafka как-то отключает весь кластер
connect-prod |2019-02-14 06: 28: 54,885 INFO ||[Consumer clientId = consumer-3, groupId = 4] Ошибка отправки запроса на выборку (sessionId = 1727876188, epoch = INITIAL) на узел 2: org.apache.kafka.common.errors.DisconnectException.[org.apache.kafka.clients.FetchSessionHandler] connect-prod |2019-02-14 06: 28: 55,448 ИНФОРМАЦИЯ ||[Consumer clientId = consumer-1, groupId = 4] Ошибка отправки запроса на выборку (sessionId = 1379896198, epoch = INITIAL) на узел 2: org.apache.kafka.common.errors.DisconnectException.[org.apache.kafka.clients.FetchSessionHandler]
Эта ошибка нарушает работу всего кластера.Это не подходит, пока я намеренно не остановлю брокера.Разве Kafka не должен обрабатывать 1 брокера, если наша репликация установлена на 2 для всех тем?
Один из наших брокеров просто отключается, и все наши производители и потребители просто останавливаются, выбрасывая исключение, показанное выше.
Ошибка на стороне потребителя:
![enter image description here](https://i.stack.imgur.com/vWgRB.png)
Ошибка на отключенном брокере:
![enter image description here](https://i.stack.imgur.com/4FELW.png)
Конфигурация потока: ![enter image description here](https://i.stack.imgur.com/Zuwbq.png)
Код потока: https://codeshare.io/Gq6pLB
server.properties: https://codeshare.io/G73ggn
EDIT:
Я думал, что исправил эту проблему, изменив гарантию обработки на at_least_once, но, похоже, это не решило проблему, просто отложил ее на несколько дней.Я снова увидел проблему, но на этот раз я не увидел проблемы с транзакцией, а только проблемы с отключением.
Возможно, причина в другом!
Это действительно расстраивает.
РЕДАКТИРОВАТЬ 3:
Пройдя немного дальше, мы обнаружили, что настоящая проблема заключается в слишком большом количестве tcp-соединений в состоянии CLOSE WAIT в неисправном посреднике.
Я до сих пор не знаю причину.
tcp6 27 0 172.31.10.143:9092 172.31.0.47:45138 УСТАНОВЛЕНО -
tcp6 25 0 172.31.10.143:9092 172.31.46.69:41612 CLOSE_WAIT -
tcp6 25 0 172.31.10.143:9092 172.31.0.47:45010 CLOSE_WAIT -
tcp6 25 0 172.31.10.143:9092 172.31.46.69:43000 CLOSE_WAIT - * 1054 0c172.31.10.143:8080 172.31.20.219:45952 CLOSE_WAIT -
tcp6 25 0 172.31.10.143:9092 172.31.20.219:48006 CLOSE_WAIT -
tcp6 1 0 172.31.10.143:9092 172.31.0.47:44582 CLOSE_WA* tcp6 25 0 172.31.10.143:9092 172.31.46.69:42828 CLOSE_WAIT -
tcp6 25 0 172.31.10.143:9092 172.31.46.69:41934 CLOSE_WAIT - tcp6 25 0 172.31.10.143:9092 172.31.46.69:6758 CLOS25 0 172.31.10.143:9092 172.31.46.69:41584 CLOSE_WAIT - tcp6 25 0 172.31.10.143:9092 172.31.46.69:41852 CLOSE_WAIT - tcp6 1 0 172.31.10.143:9092 172.31.0.47:44342 CLOSE_WAIT -