У меня есть опыт работы с DBFS , это отличное хранилище, в котором хранятся данные, которые вы можете загрузить с локального компьютера, используя DBFS CLI !Настройка CLI немного сложнее, но когда вы справляетесь, вы можете легко перемещать целые папки в этой среде (не забывайте использовать -overwrite!)
- создавать папки
- загрузка файлов
- изменение, удаление файлов и папок
С помощью Scala вы можете легко извлекать данные, хранящиеся в этом хранилище, с помощью следующего кода:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/test.csv")
.select(some_column_name)
Или прочитайте всю папку, чтобы обработать все csv доступные файлы:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/*.csv")
.select(some_column_name)
Я думаю, что это легко использовать и изучать, я надеюсь, что вы найдете эту информацию полезной!