Question

У меня есть поток, который использует foreachBatch и хранит контрольные точки в озере данных, но если я отменяю поток, бывает, что последняя запись не была полностью зафиксирована. Затем в следующий раз, когда я запускаю поток, я получаю дубликаты, поскольку он начинается с последнего подтвержденного batchId.

Я использую дельту, но я не хочу использовать слияние, потому что у меня много данных, и это не кажется, не так быстро, как хотелось бы (даже с использованием разделов).

Как я могу использовать batchId для обработки дубликатов? Или есть другой способ?

Как обрабатывать дубликаты, используя foreachBatch в потоковой структуризации в случае прерывания потока?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как обрабатывать дубликаты, используя foreachBatch в потоковой структуризации в случае прерывания потока?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы