У нас есть работа Flink, потребляющая данные от Kafka и принимающая их на реплицированную на несколько сайтов Cassandra.
Теперь мы должны агрегировать данные ежечасно.
Проблема в том, что устройство X может отправлять отчеты один раз на сайте A и один раз на сайте B. Это означает, что некоторые сообщения для этого устройства будут обрабатываться Flink на сайте A, а некоторые сообщения будут обрабатываться на сайте B.
Я хочу получить результат агрегации, который будет отражать все сообщения, передаваемые определенным устройством X.
Существуют ли передовые практики для обработки нескольких сайтов? Есть идеи, как справиться со сценарием выше?
Заранее спасибо.