В настоящее время я читаю из каталога, который будет принимать файлы до конца дня, а новые файлы начнут поступать в другой каталог с завтрашнего дня. Это происходит каждый день. Мое требование здесь состоит в том, чтобы настроить потоковое приложение, которое будет считывать эти каталоги для файлов и начнет просматривать новые каталоги через день.
val data = spark.readStream.option("sep",",").schema(schema).csv("/tmp/20190517/")
Приведенный выше код будет читать все, что попадает в упомянутый каталог. После 23 ч. 59 м. В этот день этот каталог не получит никаких файлов, и новый каталог / tmp / 20190518 начнет получать файлы, и приложение должно выполнить чтение из этого нового каталога. Нужно решение для этого.