Я брожу по Spark и пытаюсь читать из файлового потока.Это мой пример кода:
JavaStreamingContext streamingContext = new JavaStreamingContext( context, new Duration( 10_000 ) );
Path checkpoint = Paths.get( "d:/tmp/spark" );
streamingContext.checkpoint( checkpoint.toUri().toString() );
Path resourcesDir = Paths.get( "D:/tmp/spark-monitor-dir" );
JavaDStream<Vector> trainingDStream = streamingContext
.textFileStream( resourcesDir.toUri().toString() )
.map( this::parseTrainingData );
...
streamingContext.start();
// do some periodical check of the state
streamingContext.awaitTermination();
Я не получаю файл для чтения в каталоге, указанном для метода textFileStream.Посмотрев другие ответы на stackoverflow, было указано, что это возможно только при использовании HDFS ( link ).Но я видел в некоторых видеоуроках, что люди исполняют его на Mac, поэтому я думаю, что это все-таки возможно.
Мой вопрос заключается в том, как настроить Spark для работы с файловыми потоками в среде, похожей на разработку (т.е. как можно проще).Если для этого мне нужна HDFS, как я могу настроить ее в такой среде (опять же, настолько просто, насколько это возможно)?
Кроме того, если нет смысла делать это таким образом, укажите мне аргументы.
РЕДАКТИРОВАТЬ
Я попробовал ту же установку Spark с тем же приложением на компьютере с Linux, и он считывает поток файлов из каталога.Настройка HDFS не требуется!