Question

Мне нужно прочитать из источника озера данных (например, Azure ADLS) набор потоков входных данных, которые мне нужны из Spark Streaming.

Сейчас я не могу гарантировать атомарность записи (т. Е. Содержимое может быть добавлено в файл) моих входных файлов. Насколько я понимаю, Spark Streaming заметит, что есть новый файл, и попытается прочитать его содержимое, игнорируя любые дальнейшие записи, эффективно приводящие к состоянию гонки, которое приводит к потере данных.

Хотя я могу гарантировать, что файлы могут быть считается "запечатанным" через несколько минут. Можно ли как-то сказать Spark подождать X минут, прежде чем использовать файл?

Спасибо

Как отложить чтение на Spark Streaming, чтобы избежать состояния гонки на Azure Datalake

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как отложить чтение на Spark Streaming, чтобы избежать состояния гонки на Azure Datalake

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов