Spark Streaming + обработка файлов в директории HDFS - PullRequest
0 голосов
/ 13 мая 2018

У меня есть процесс-демон, который выгружает данные в виде файлов в HDFS. Мне нужно создать RDD поверх новых файлов, дублировать их и сохранить обратно в HDFS. Имена файлов должны сохраняться при сбросе обратно в HDFS.

Какие-нибудь указатели для достижения этого?

Я открыт для достижения этого с или без искрового потока.

Я попытался создать процесс потоковой передачи, который обрабатывает данные напрямую (с использованием кода Java на рабочих узлах) и помещает их в HDFS без создания СДР. Но этот подход не подходит для больших файлов (больше 15 ГБ).

Я сейчас ищу JavaSparkContext.fileStreaming.

Любые указатели будут очень полезны.

Спасибо и всего наилучшего,

Абхай Дандекар

...