Мне нужно прочитать из источника озера данных (например, Azure ADLS) набор потоков входных данных, которые мне нужны из Spark Streaming.
Сейчас я не могу гарантировать атомарность записи (т. Е. Содержимое может быть добавлено в файл) моих входных файлов. Насколько я понимаю, Spark Streaming заметит, что есть новый файл, и попытается прочитать его содержимое, игнорируя любые дальнейшие записи, эффективно приводящие к состоянию гонки, которое приводит к потере данных.
Хотя я могу гарантировать, что файлы могут быть считается "запечатанным" через несколько минут. Можно ли как-то сказать Spark подождать X минут, прежде чем использовать файл?
Спасибо