не удается найти структурированную потоковую передачу в формате sparkd_network_wordcount.py - PullRequest
0 голосов
/ 27 декабря 2018

Я новичок в Spark и учусь на структурированном потоковом учебнике .Используя spark 2.4 с python.

я запускаю nc -lk 9999 в терминале.Затем в записной книжке, запустите ниже на основе учебника

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split

spark = SparkSession \
    .builder \
    .appName("StructuredNetworkWordCount") \
    .getOrCreate()

# Create DataFrame representing the stream of input lines from connection to localhost:9999
lines = spark \
    .readStream \
    .format("socket") \
    .option("host", "localhost") \
    .option("port", 9999) \
    .load()

# Split the lines into words
words = lines.select(
   explode(
       split(lines.value, " ")
   ).alias("word")
)

# Generate running word count
wordCounts = words.groupBy("word").count()

 # Start running the query that prints the running counts to the console
query = wordCounts \
    .writeStream \
    .outputMode("complete") \
    .format("console") \
    .start()

query.awaitTermination()

Теперь на другом терминале я захожу в папку s park-2.4.0-bin-hadoop2.7 и запускаю

$ ./bin/spark-submit examples/src/main/python/sql/streaming/structured_network_wordcount.py localhost 9999

Что дает мне ошибку

Error executing Jupyter command '/Users/myusername/spark-2.4.0-bin-hadoop2.7/examples/src/main/python/sql/streaming/structured_network_wordcount.py': [Errno 2] No such file or directory

Но я знаю, что файл structured_network_wordcount.py существует в этом месте.Тогда почему эта ошибка?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...