Мы используем концентраторы событий Azure с опцией интеграции Kafka.Наши услуги на Java, Spring Boot, Spring Cloud Stream.Они развернуты на Azure AKS.Мы включили конечные точки служб в виртуальной сети кластера для концентраторов событий Azure.
В большинстве случаев все работает нормально.
Время от времени производители не могут публиковать в Kafka.Мы теряем сообщения, которые обычно имеют решающее значение для общей согласованности данных.
Когда это происходит, мы видим некоторые ошибки в журналах (я разбил их на несколько строк для удобства чтения):
Первый пример из журналов:
2019-02-21 22:11:04.681 WARN 1 --- [ad | producer-2]
o.a.k.clients.producer.internals.Sender : [Producer clientId=producer-2]
Got error produce response with correlation id 6 on topic-partition _topic-name_-1,
retrying (4 attempts left). Error: NETWORK_EXCEPTION
Второй пример:
org.apache.kafka.common.errors.TimeoutException:
Expiring 1 record(s) for _topic-name_-1:
30096 ms has passed since batch creation plus linger time
У потребителей также иногда возникают проблемы с подключением:
2019-02-22 03:03:59.733 INFO 1 --- [container-0-C-1]
o.a.k.c.c.internals.AbstractCoordinator :
[Consumer clientId=consumer-6, groupId=my-super-service]
Group coordinator my-super-hub.servicebus.windows.net:9093
(id: 2147483647 rack: null) is unavailable or invalid, will attempt rediscovery
Есть ли у кого-либо подобные проблемыс концентратором событий Azure и, возможно, какие-нибудь идеи, в чем может быть проблема?