Я создаю продукт, используя потоки kafka и Kafka с Java / Python.
Продукт предназначен для обработки данных из нескольких разрозненных внешних источников данных, которые включают в себя как события в реальном времени, так и почасовые пакетные события. Могут быть долгие промежутки, часы, когда никакие события не поступят из внешних источников. Некоторые из этих событий из разных источников должны быть сопоставлены и агрегированы, для чего я планирую использовать Kafka Streams.
Учитывая, что примеры использования, наиболее часто приводимые в качестве примера для потоков Kafka / Kafka, представляют собой высокопроизводительные, высокопроизводительные и быстродействующие события в реальном времени, меня беспокоит вопрос о том, подходит ли мой вариант использования здесь. Итак, для этого мой вопрос:
учитывая прерывистый характер потока событий и длинные промежутки,
Каковы некоторые из параметров конфигурации, которые мне нужно посмотреть в
так что время ожидания соединения не истекает и перебалансировки не происходит.
Есть ли какие-нибудь ошибки, которые меня укусят, если я пойду дальше?
архитектура?