Я новичок в Spark и учусь на структурированном потоковом учебнике .Используя spark 2.4 с python.
я запускаю nc -lk 9999
в терминале.Затем в записной книжке, запустите ниже на основе учебника
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split
spark = SparkSession \
.builder \
.appName("StructuredNetworkWordCount") \
.getOrCreate()
# Create DataFrame representing the stream of input lines from connection to localhost:9999
lines = spark \
.readStream \
.format("socket") \
.option("host", "localhost") \
.option("port", 9999) \
.load()
# Split the lines into words
words = lines.select(
explode(
split(lines.value, " ")
).alias("word")
)
# Generate running word count
wordCounts = words.groupBy("word").count()
# Start running the query that prints the running counts to the console
query = wordCounts \
.writeStream \
.outputMode("complete") \
.format("console") \
.start()
query.awaitTermination()
Теперь на другом терминале я захожу в папку s park-2.4.0-bin-hadoop2.7
и запускаю
$ ./bin/spark-submit examples/src/main/python/sql/streaming/structured_network_wordcount.py localhost 9999
Что дает мне ошибку
Error executing Jupyter command '/Users/myusername/spark-2.4.0-bin-hadoop2.7/examples/src/main/python/sql/streaming/structured_network_wordcount.py': [Errno 2] No such file or directory
Но я знаю, что файл structured_network_wordcount.py
существует в этом месте.Тогда почему эта ошибка?