Можно ли сохранить спарк-стриминг в том же файле hdfs? - PullRequest
0 голосов
/ 13 мая 2019

Я делаю потоковую передачу с помощью nc -lk 9999, и DS-потоки сохраняются в разных папках и разных файлах. Я не хочу расшаривать файлы, я хочу сохранить потоковую передачу в том же файле, добавляя его. Как я могу получить это?

import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

val spark = SparkSession.builder().appName("My App").getOrCreate()
val sc = spark.sparkContext 
val ssc = new StreamingContext(sc, Seconds(5))

val lines = ssc.socketTextStream("myhost",9999)
val palabras = lines.flatMap(x=>x.split(" "))
val pairs = palabras.map(w=>(w,1))
val cuenta = pairs.reduceByKey((a,b)=>a+b)

cuenta.print()
cuenta.saveAsTextFiles("hdfs:///tmp/testFiles/testing.txt")

ssc.start()

Большое спасибо, привет!

...