Spark Stateful Streaming - добавить счетчик столбца - PullRequest
0 голосов
/ 23 января 2019

У меня есть процесс Spark Streaming, который отключает записи тема Кафки, обрабатывает их и отправляет продюсеру для публикации на другую тему. Я хотел бы добавить столбец порядкового номера, который можно использовать для идентификации записей с одинаковым ключом, которые будут увеличиваться при каждом повторном повторении этого ключа. Например, если вывод, отправленный производителю, равен

Key, col1, col2, seqnum
A, 67, dog, 1
B, 56, cat, 1
C, 89, fish, 1

тогда, если A повторяется в течение разумного промежутка времени Spark выдаст следующее:

A, 67, dog, 2
B, 56, cat, 2

и т.д.. Как бы я это сделал? Я подозреваю, что это часто встречается, но я не нашел примеров.

...