Я вдруг получил исключения типа в производстве Kafka
ERROR[pool-XX-thread-YY] org.apache.kafka.clients.consumer.internals.ConsumerCoordinator - [Consumer clientId=someclientid, groupId=somegroup] Offset commit failed on partition SomeTopic-SomePartition at offset SomeOffset: The request timed out.
Это происходило в течение 3,5 секунд из множества разных сервисов (клиентов) (разные темы \ разные темы \ разные разделы), а не только излечивало себя ...
Конфигурации смещения фиксации - это 5-секундная автоматическая фиксация для всех этих клиентов.
Не удалось отследить что-либо из журналов брокера kafka, за исключением некоторого права перебалансировки одной группы (из 10 возникла такая проблема), что является нормальным явлением, когда сердцебиение не удается, на сервере метрик я вижу некоторые всплески коммита задержка, которая является симптомом, который я предполагаю, и некоторые всплески TCP на 1 брокере (из 3)
Как мне начать расследование? что может вызвать такую проблему? куда мне смотреть, когда происходят подобные вещи?
Прикрепление фотографий некоторых графиков здесь:
TCP Spike in server-3: https://i.stack.imgur.com/fuV2r.png
Commit latency spike: https://i.stack.imgur.com/8nFs8.png
Group syncs: https://i.stack.imgur.com/glNZ5.png
Heartbeats: https://i.stack.imgur.com/iS5ic.png