У меня есть процесс Spark Streaming, который отключает записи
тема Кафки, обрабатывает их и отправляет продюсеру для публикации на другую тему.
Я хотел бы добавить столбец порядкового номера, который можно использовать для идентификации записей с одинаковым ключом, которые будут увеличиваться при каждом повторном повторении этого ключа.
Например, если вывод, отправленный производителю, равен
Key, col1, col2, seqnum
A, 67, dog, 1
B, 56, cat, 1
C, 89, fish, 1
тогда, если A повторяется в течение разумного промежутка времени
Spark выдаст следующее:
A, 67, dog, 2
B, 56, cat, 2
и т.д..
Как бы я это сделал? Я подозреваю, что это часто встречается, но я не нашел примеров.