Я читаю CSV-файлы с помощью spark и scala, файлы поступают с другого задания потоковой передачи. Мне нужно читать только новые файлы?
val df= spark .read // .schema(test_raw) .option("header", "true") .option("sep", ",") .csv(path).toDF().cache() event3.registerTempTable("test")
Я решил проблему, добавив контрольную точку на фрейм данных, как это
val df= spark .read // .schema(test_raw) .option("header", "true") .option("sep", ",") .csv(path).toDF().checkpoint().cache()