Question

Привет, ребята, простой вопрос для опытных ребят.У меня есть искры работы чтения файлов под путем.Я хотел использовать структурированную потоковую передачу, даже если источником на самом деле является не поток, а просто папка с кучей файлов в нем.

Мой вопрос, можно ли использовать для этого триггер.Once ().И если да, то как мне сделать триггер. Как только распознать новые файлы как таковые.

Я опробовал его на своем ноутбуке, и при первом запуске все читается, но при повторном запуске задания файлы, записанные в это время, вообще не распознаются и не обрабатываются.

мой метод выглядит так:

def executeSql(spark:SparkSession):Unit ={

    val file = "home/hansherrlich/input_event/"

    val df  = spark.readStream.format("json").schema(getStruct).load("home/hansherrlich/some_event/")

    val out =    df.writeStream.trigger(Trigger.Once()).format("json").option("path","home/hansherrlich/some_event_processed/").start()

    out.processAllAvailable()
    out.stop()
    //out.awaitTermination()
    println("done writing")

}

Hans Herrlich · Answer 1 · 06 апреля 2019

при чтении из файлов это, похоже, будет работать только в том случае, если файлы записаны как Delta от Data Bricks.

trigger.Once () метаданные необходимы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

trigger.Once () метаданные необходимы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы