Поток из локального текстового файла в pyspark - PullRequest
0 голосов
/ 27 мая 2020

Я пытаюсь выполнить потоковую передачу из локального текстового файла.

conf = SparkConf().setMaster("spark://antonis-dell:7077").setAppName("Kafka_Spark")
sc = SparkContext(conf=conf)  # .getOrCreate()
sc.setLogLevel("WARN")
ssc = StreamingContext(sc, 2)


lines = ssc.textFileStream("file:///home/antonis/repos/GLASSEAS/Anomaly_Detector/dataset/")
lines.pprint()
ssc.start()
ssc.awaitTermination()

Похоже, что из предыдущих ответов на stackoverflow ничего не работает.

Я пробовал пустую папку dataset, а затем, чтобы передать текстовый файл, я пробовал с file:/, но ничего не работает.

Может ли кто-нибудь помочь мне с этим?

Ответы [ 2 ]

0 голосов
/ 27 мая 2020

Не могли бы вы попробовать с сеансом искры вместо контекста искры, как здесь

sparkSession = SparkSession.builder().config(conf).getOrCreate()
lines = sparkSession.readStream.textFile("file:///home/antonis/repos/GLASSEAS/Anomaly_Detector/dataset/")
0 голосов
/ 27 мая 2020

Вам нужно будет дополнить образец кода вызовами ss c .start и ss c .awaitTermination.

...
lines = ssc.textFileStream("/home/antonis/repos/GLASSEAS/Anomaly_Detector/dataset/")
  .pprint()
ssc.start()
ssc.awaitTermination()

Этот spark do c отлично подходит для начала работы (в их примере они используют socketTextStream, но все остальное применимо к вашему случаю)

...