Как читать только новые файлы в спарке - PullRequest
0 голосов
/ 04 апреля 2019

Я читаю CSV-файлы с помощью spark и scala, файлы поступают с другого задания потоковой передачи.
Мне нужно читать только новые файлы?

val df= spark  
.read // 
.schema(test_raw)
.option("header", "true")    
.option("sep", ",")   
.csv(path).toDF().cache() 
event3.registerTempTable("test")

1 Ответ

0 голосов
/ 05 апреля 2019

Я решил проблему, добавив контрольную точку на фрейм данных, как это

val df= spark  
.read // 
.schema(test_raw)
.option("header", "true")    
.option("sep", ",")   
.csv(path).toDF().checkpoint().cache()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...