Папка hdfs выглядит следующим образом:
/test/data/2020-03-01/{multiple inside files csv}
/test/data/2020-03-02/{multiple files csv}
/test/data/2020-03-03/{multiple files csv }
Я хочу читать данные в папке по одному, а не целиком
spark.read.csv("/test/data/*") //not in such manner
Не указанным выше способом, я хочу прочитать подать по одному; так что я могу сделать запись в журнале в какой-то базе данных, что папка с датой читается; чтобы в следующий раз я мог пропустить эту папку на следующий день или в тот же день, если программа запустилась случайно: