Как заставить файловый поток Spark работать на Windows FS (NTFS) - PullRequest
0 голосов
/ 09 октября 2018

Я брожу по Spark и пытаюсь читать из файлового потока.Это мой пример кода:

JavaStreamingContext streamingContext = new JavaStreamingContext( context, new Duration( 10_000 ) );

        Path checkpoint = Paths.get( "d:/tmp/spark" );
        streamingContext.checkpoint( checkpoint.toUri().toString() );
        Path resourcesDir = Paths.get( "D:/tmp/spark-monitor-dir" );

        JavaDStream<Vector> trainingDStream = streamingContext
                .textFileStream( resourcesDir.toUri().toString() )
                .map( this::parseTrainingData );

...

streamingContext.start();
// do some periodical check of the state

streamingContext.awaitTermination();

Я не получаю файл для чтения в каталоге, указанном для метода textFileStream.Посмотрев другие ответы на stackoverflow, было указано, что это возможно только при использовании HDFS ( link ).Но я видел в некоторых видеоуроках, что люди исполняют его на Mac, поэтому я думаю, что это все-таки возможно.

Мой вопрос заключается в том, как настроить Spark для работы с файловыми потоками в среде, похожей на разработку (т.е. как можно проще).Если для этого мне нужна HDFS, как я могу настроить ее в такой среде (опять же, настолько просто, насколько это возможно)?

Кроме того, если нет смысла делать это таким образом, укажите мне аргументы.

РЕДАКТИРОВАТЬ

Я попробовал ту же установку Spark с тем же приложением на компьютере с Linux, и он считывает поток файлов из каталога.Настройка HDFS не требуется!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...