Я пытаюсь запустить приложение подсчета слов для потоковой передачи с помощью команды spark-submit.Я запустил программу spark, и когда я копирую новые файлы в путь к локальной папке, файл не распознается, и никакие операции не выполняются.В журнале я нахожу сообщение об ошибке:
19/03/03 17:22:17 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@87b5b49{/static/streaming,null,AVAILABLE,@Spark}
19/03/03 17:22:17 INFO streaming.StreamingContext: StreamingContext started
19/03/03 17:22:21 WARN dstream.FileInputDStream: Error finding new files java.lang.NullPointerException
Я использую приведенную ниже команду для отправки искрового задания,
spark-submit --class com.company.stream.WordCounter --master local [4] /home/workspace/spark/SparkWordCounter.jar
Ниже приведен исходный код,
val lines = ssc.textFileStream("/home/workspace/spark/data")
val words = lines.flatMap(line => line.split(","))
val pairs = words.map(word => (word, 1))
val wordCount = pairs.reduceByKey(_ + _)
wordCount.print()
ssc.start()
ssc.awaitTermination()
Интересно, это работаеткажется, в Windows и файл, который я помещаю, выбран и программа работает нормально.
Даже если я опрошу путь к папке HDFS " hdfs: /// home / workspace / data ", программавыбирает файл и читает отлично.Но только не происходит в пути к локальной папке CentOs.