Я исследую Кафку для конкретного c варианта использования, над которым я работаю. У меня есть поток данных, и я хочу обработать его и опубликовать sh на промежуточных этапах.
На каждом из этих этапов (начальный и промежуточный) Задачи Samza будут выполнять обработку и повторную публикацию. Одно из требований, которые я предъявляю, заключается в том, что я могу повторно запускать весь конвейер обработки с определенного этапа c во времени, когда захочу.
Я знаю, что kafka поддерживает смещение для каждого из своих журналов (входящие данные) . Однако предоставляет ли Кафка какую-либо функциональность, с помощью которой я могу отобразить смещения разделов на некоторый пользовательский идентификатор (скажем, временную метку) и использовать это для повторного запуска всего конвейера с того момента на подопечных?
Я прочитал в нескольких местах, что я могу воспроизвести журнал коммитов kafka, сбросив его начало и вернувшись назад несколько раз. Но есть ли способ для меня сопоставить эти смещения с моим собственным идентификатором, таким как отметки времени, и использовать его в качестве механизма, чтобы определить, с какого смещения воспроизводить.
Best
Shabir