Как обрабатывать дубликаты, используя foreachBatch в потоковой структуризации в случае прерывания потока? - PullRequest
0 голосов
/ 26 февраля 2020

У меня есть поток, который использует foreachBatch и хранит контрольные точки в озере данных, но если я отменяю поток, бывает, что последняя запись не была полностью зафиксирована. Затем в следующий раз, когда я запускаю поток, я получаю дубликаты, поскольку он начинается с последнего подтвержденного batchId.

Я использую дельту, но я не хочу использовать слияние, потому что у меня много данных, и это не кажется, не так быстро, как хотелось бы (даже с использованием разделов).

Как я могу использовать batchId для обработки дубликатов? Или есть другой способ?

...