Как отложить чтение на Spark Streaming, чтобы избежать состояния гонки на Azure Datalake - PullRequest
0 голосов
/ 15 января 2020

Мне нужно прочитать из источника озера данных (например, Azure ADLS) набор потоков входных данных, которые мне нужны из Spark Streaming.

Сейчас я не могу гарантировать атомарность записи (т. Е. Содержимое может быть добавлено в файл) моих входных файлов. Насколько я понимаю, Spark Streaming заметит, что есть новый файл, и попытается прочитать его содержимое, игнорируя любые дальнейшие записи, эффективно приводящие к состоянию гонки, которое приводит к потере данных.

Хотя я могу гарантировать, что файлы могут быть считается "запечатанным" через несколько минут. Можно ли как-то сказать Spark подождать X минут, прежде чем использовать файл?

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...