Spark Streaming textFileStream не выбирает новые файлы - PullRequest
0 голосов
/ 07 марта 2019

Я пытаюсь запустить приложение подсчета слов для потоковой передачи с помощью команды spark-submit.Я запустил программу spark, и когда я копирую новые файлы в путь к локальной папке, файл не распознается, и никакие операции не выполняются.В журнале я нахожу сообщение об ошибке:

19/03/03 17:22:17 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@87b5b49{/static/streaming,null,AVAILABLE,@Spark} 19/03/03 17:22:17 INFO streaming.StreamingContext: StreamingContext started 19/03/03 17:22:21 WARN dstream.FileInputDStream: Error finding new files java.lang.NullPointerException

Я использую приведенную ниже команду для отправки искрового задания,

spark-submit --class com.company.stream.WordCounter --master local [4] /home/workspace/spark/SparkWordCounter.jar

Ниже приведен исходный код,

val lines = ssc.textFileStream("/home/workspace/spark/data")
val words = lines.flatMap(line => line.split(","))
val pairs = words.map(word => (word, 1))
val wordCount = pairs.reduceByKey(_ + _)
wordCount.print()
ssc.start()
ssc.awaitTermination()

Интересно, это работаеткажется, в Windows и файл, который я помещаю, выбран и программа работает нормально.

Даже если я опрошу путь к папке HDFS " hdfs: /// home / workspace / data ", программавыбирает файл и читает отлично.Но только не происходит в пути к локальной папке CentOs.

...