Сбой фиксации Kafka на разделе: истекло время ожидания запроса - PullRequest
0 голосов
/ 20 июня 2019

Я вдруг получил исключения типа в производстве Kafka

ERROR[pool-XX-thread-YY] org.apache.kafka.clients.consumer.internals.ConsumerCoordinator - [Consumer clientId=someclientid, groupId=somegroup] Offset commit failed on partition SomeTopic-SomePartition at offset SomeOffset: The request timed out.

Это происходило в течение 3,5 секунд из множества разных сервисов (клиентов) (разные темы \ разные темы \ разные разделы), а не только излечивало себя ... Конфигурации смещения фиксации - это 5-секундная автоматическая фиксация для всех этих клиентов.

Не удалось отследить что-либо из журналов брокера kafka, за исключением некоторого права перебалансировки одной группы (из 10 возникла такая проблема), что является нормальным явлением, когда сердцебиение не удается, на сервере метрик я вижу некоторые всплески коммита задержка, которая является симптомом, который я предполагаю, и некоторые всплески TCP на 1 брокере (из 3)

Как мне начать расследование? что может вызвать такую ​​проблему? куда мне смотреть, когда происходят подобные вещи?

Прикрепление фотографий некоторых графиков здесь:

TCP Spike in server-3: https://i.stack.imgur.com/fuV2r.png
Commit latency spike: https://i.stack.imgur.com/8nFs8.png
Group syncs: https://i.stack.imgur.com/glNZ5.png
Heartbeats: https://i.stack.imgur.com/iS5ic.png
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...