Я сталкивался с сообщением Масштабирование конвейера обработки событий Klaviyo с потоковой обработкой , в этом сообщении люди в компании под названием Klaviyo выполняют подсчет на разных таймфреймах, ежечасно, ежедневно, даже ежемесячно.
У меня есть пара вопросов, если я правильно понимаю, они используют временное окно, но нормально ли использовать временное окно для такого длительного времени, как день?!
Это не имеет смысла для меня, если вы проводите ежедневный или ежемесячный подсчет, почему бы не использовать пакетную обработку? Каково основное преимущество использования потоковой передачи в таком случае?
Другой случай, если мне нужно посчитать событие кафки с самого начала, в реальном времени , каково реальное решение? Использовать потоковую передачу flink для обновления «счетчика» в redis каждый раз, когда происходит событие? Если kafka довольно занят, например, несколько миллионов сообщений в секунду, разве не будет слишком много ввода-вывода и сети?