У меня есть поток, который использует foreachBatch и хранит контрольные точки в озере данных, но если я отменяю поток, бывает, что последняя запись не была полностью зафиксирована. Затем в следующий раз, когда я запускаю поток, я получаю дубликаты, поскольку он начинается с последнего подтвержденного batchId.
Я использую дельту, но я не хочу использовать слияние, потому что у меня много данных, и это не кажется, не так быстро, как хотелось бы (даже с использованием разделов).
Как я могу использовать batchId для обработки дубликатов? Или есть другой способ?