DisconnectException ломает весь кластер кафки - PullRequest
0 голосов
/ 14 февраля 2019

Исключение разъединения с одним из брокеров kafka как-то отключает весь кластер

connect-prod |2019-02-14 06: 28: 54,885 INFO ||[Consumer clientId = consumer-3, groupId = 4] Ошибка отправки запроса на выборку (sessionId = 1727876188, epoch = INITIAL) на узел 2: org.apache.kafka.common.errors.DisconnectException.[org.apache.kafka.clients.FetchSessionHandler] connect-prod |2019-02-14 06: 28: 55,448 ИНФОРМАЦИЯ ||[Consumer clientId = consumer-1, groupId = 4] Ошибка отправки запроса на выборку (sessionId = 1379896198, epoch = INITIAL) на узел 2: org.apache.kafka.common.errors.DisconnectException.[org.apache.kafka.clients.FetchSessionHandler]

Эта ошибка нарушает работу всего кластера.Это не подходит, пока я намеренно не остановлю брокера.Разве Kafka не должен обрабатывать 1 брокера, если наша репликация установлена ​​на 2 для всех тем?

Один из наших брокеров просто отключается, и все наши производители и потребители просто останавливаются, выбрасывая исключение, показанное выше.

Ошибка на стороне потребителя:

enter image description here

Ошибка на отключенном брокере:

enter image description here

Конфигурация потока: enter image description here

Код потока: https://codeshare.io/Gq6pLB

server.properties: https://codeshare.io/G73ggn

EDIT:

Я думал, что исправил эту проблему, изменив гарантию обработки на at_least_once, но, похоже, это не решило проблему, просто отложил ее на несколько дней.Я снова увидел проблему, но на этот раз я не увидел проблемы с транзакцией, а только проблемы с отключением.

Возможно, причина в другом!

Это действительно расстраивает.

РЕДАКТИРОВАТЬ 3:

Пройдя немного дальше, мы обнаружили, что настоящая проблема заключается в слишком большом количестве tcp-соединений в состоянии CLOSE WAIT в неисправном посреднике.

Я до сих пор не знаю причину.

tcp6 27 0 172.31.10.143:9092 172.31.0.47:45138 УСТАНОВЛЕНО -
tcp6 25 0 172.31.10.143:9092 172.31.46.69:41612 CLOSE_WAIT -
tcp6 25 0 172.31.10.143:9092 172.31.0.47:45010 CLOSE_WAIT -
tcp6 25 0 172.31.10.143:9092 172.31.46.69:43000 CLOSE_WAIT - * 1054 0c172.31.10.143:8080 172.31.20.219:45952 CLOSE_WAIT -
tcp6 25 0 172.31.10.143:9092 172.31.20.219:48006 CLOSE_WAIT -
tcp6 1 0 172.31.10.143:9092 172.31.0.47:44582 CLOSE_WA* tcp6 25 0 172.31.10.143:9092 172.31.46.69:42828 CLOSE_WAIT -
tcp6 25 0 172.31.10.143:9092 172.31.46.69:41934 CLOSE_WAIT - tcp6 25 0 172.31.10.143:9092 172.31.46.69:6758 CLOS25 0 172.31.10.143:9092 172.31.46.69:41584 CLOSE_WAIT - tcp6 25 0 172.31.10.143:9092 172.31.46.69:41852 CLOSE_WAIT - tcp6 1 0 172.31.10.143:9092 172.31.0.47:44342 CLOSE_WAIT -

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...