Мы используем структурированную потоковую передачу и пытаемся сделать дедупликацию для исходных данных. Если идентификатор идентификатора будет повторяться в течение 20 дней, мы должны подтвердить раннее время события. 20 день может иметь 10-15 миллиардов строк. Мы не хотим использовать dropDuplicates, так как состояние может быть огромным. Мы думаем об использовании таблицы Кассандры для хранения состояния (скажем, id и минимальное время). Каждый раз, когда запускается микропакет, мы просматриваем состояние хранения таблицы Cassandra с идентификаторами в микропартии. Идентификаторы за 20 дней также находятся на уровне 10-15 миллиардов, или, другими словами, таблица состояний в Кассандре находится на уровне 10-15 миллиардов. Так можно ли искать или объединяться с этой таблицей Кассандры в каждой микропакете?