Question

Я использую приложение Kafka Streams с тремя под-топологиями. Этапы деятельности примерно таковы:

stream Тема A
selectKey и перераспределение Тема A to Тема B
stream Тема B
foreach От темы B к теме C Producer
stream Тема C
Тема C to Тема D

Темы A, B и C материализуются, что означает, что если каждая тема имеет 40 разделов, мой максимальный параллелизм равен 120.

Сначала я запускал 5 потоковых приложений по 8 потоков на штуку. С этой настройкой я испытывал противоречивые результаты. Похоже, что некоторые под-топологии, использующие один и тот же поток, были более требовательны к процессору, чем другие, и через некоторое время я получил бы такую ошибку: Member [client_id] in group [consumer_group] has failed, removing it from the group (kafka.coordinator.group.GroupCoordinator). Все будет перебалансировано, что может привести к снижению производительности до следующего сбоя и перебалансировки.

У меня следующие вопросы:

Как получается, что несколько под-топологий могут быть запущены в одном потоке? Очередь опроса?
Как каждый поток решает, как распределить вычислительные ресурсы для каждой из его под-топологий?
Как оптимизировать соотношение потоков к разделам в таких случаях, чтобы избежать периодических сбоев потребителей? например, обеспечит ли соотношение 1: 1 более стабильную производительность?
Если вы используете соотношение 1: 1, как вы гарантируете, что каждому потоку назначается собственный раздел-тема, а некоторые потоки не остаются без дела?

Matthias J. Sax · Answer 1 · 06 июля 2018

Поток будет опрашивать () по всем темам различных под-топологий и проверять записи topic метаданных, чтобы передать их в правильную задачу.
Каждая под-топология обрабатывается одинаково, т. Е. Доступные ресурсы распределяются равномерно, если хотите.
Соотношение 1: 1 полезно, только если у вас достаточно ядер. Я бы порекомендовал следить за загрузкой вашего процессора. Если оно слишком высокое (больше> 80%), вам следует добавить больше ядер / потоков.
Kafka Streams обрабатывает это автоматически.

Пара общих комментариев:

вы можете увеличить max.poll.interval.ms config, чтобы потребитель не выпал из группы
Вы можете уменьшить max.poll.records, чтобы получать меньше записей за poll() вызов, и, таким образом, уменьшить время между двумя последовательными вызовами до poll().
обратите внимание, что max.poll.records не означает увеличения связи между сетью и брокером - если один запрос на выборку возвращает больше записей, чем конфигурация max.poll.records, данные просто буферизуются внутри потребителя, и следующая poll() будет обработана из буферизованных данных, избегая брокера туда и обратно

Оптимизация приложения Kafka Streams с несколькими под-топологиями

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Оптимизация приложения Kafka Streams с несколькими под-топологиями

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы