У меня есть процесс-демон, который выгружает данные в виде файлов в HDFS. Мне нужно создать RDD поверх новых файлов, дублировать их и сохранить обратно в HDFS. Имена файлов должны сохраняться при сбросе обратно в HDFS.
Какие-нибудь указатели для достижения этого?
Я открыт для достижения этого с или без искрового потока.
Я попытался создать процесс потоковой передачи, который обрабатывает данные напрямую (с использованием кода Java на рабочих узлах) и помещает их в HDFS без создания СДР.
Но этот подход не подходит для больших файлов (больше 15 ГБ).
Я сейчас ищу JavaSparkContext.fileStreaming.
Любые указатели будут очень полезны.
Спасибо и всего наилучшего,
Абхай Дандекар