Я хочу потоковую передачу CSV-файлов на спарк с kafka.
Все файлы сохраняются в формате hdf другим сервисом, и я хотел бы прочитать все файлы, используя kafka. Нечто похожее на то, что делается с потоковым искром:
val event1 = spark
.readStream
.schema(test_raw)
.option("newFilesOnly", "true")
.option("header", "true")
.option("sep", ",")
.csv(stream_path)