У меня есть фрейм потоковых данных в режиме точного чтения из kafka topi c, и я хочу отбрасывать дубликаты в течение последних 5 минут каждый раз, когда анализируется новая запись.
Мне известно о dropDuplicates(["uid"])
функция, я просто не уверен, как проверить наличие дубликатов за указанный c исторический c интервал времени.
Насколько я понимаю, следующее:
df = df.dropDuplicates(["uid"])
либо работает с данными, считанными из текущей (микро) партии, или же с «чем угодно», находящимся сейчас в памяти. Есть ли способ установить время для этой дедупликации, используя столбец "timestamp"
в данных?
Заранее спасибо.