Я работаю над побочным проектом, в котором я загружаю данные о транспортировке в кластер kafka. Данные поступают из API моего города publi c. Например: в городе каждая дорога работает.
Я приезжаю ремонт дороги каждые несколько часов. Но API publi c не возвращает timestamp
, поэтому у меня нет возможности легко сказать, какие дорожные работы являются новыми или были недавно изменены. В большинстве случаев контент, возвращаемый API, не перемещался с прошлого раза. Я использую идентификатор дорожных работ в качестве ключа topi c и активировал сжатие журнала, поэтому наличие большого количества дубликатов меня не пугает, поскольку я уверен, что последнее состояние каждой работы будет сохранено.
Но, учитывая большое количество дубликатов и тот факт, что меня интересует только последняя версия, это нормально? Стоит ли пытаться обнаружить новые / модифицированные дорожные работы и только pu sh thoses? Есть ли способ сделать это прямо в Кафке?