trigger.Once () метаданные необходимы - PullRequest
0 голосов
/ 22 марта 2019

Привет, ребята, простой вопрос для опытных ребят.У меня есть искры работы чтения файлов под путем.Я хотел использовать структурированную потоковую передачу, даже если источником на самом деле является не поток, а просто папка с кучей файлов в нем.

Мой вопрос, можно ли использовать для этого триггер.Once ().И если да, то как мне сделать триггер. Как только распознать новые файлы как таковые.

Я опробовал его на своем ноутбуке, и при первом запуске все читается, но при повторном запуске задания файлы, записанные в это время, вообще не распознаются и не обрабатываются.

мой метод выглядит так:

def executeSql(spark:SparkSession):Unit ={

    val file = "home/hansherrlich/input_event/"

    val df  = spark.readStream.format("json").schema(getStruct).load("home/hansherrlich/some_event/")

    val out =    df.writeStream.trigger(Trigger.Once()).format("json").option("path","home/hansherrlich/some_event_processed/").start()

    out.processAllAvailable()
    out.stop()
    //out.awaitTermination()
    println("done writing")

}

1 Ответ

0 голосов
/ 06 апреля 2019

при чтении из файлов это, похоже, будет работать только в том случае, если файлы записаны как Delta от Data Bricks.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...