Вопрос о постоянных данных:
Насколько я понял, основываясь на документации dbfs , данные считываются из точки монтирования через dbfs не сохраняется:
"Данные, записанные в пути точек монтирования (/ mnt), хранятся за пределами DBFS root. Несмотря на то, что DBFS root доступна для записи, мы рекомендуем хранить данные в хранилище смонтированных объектов, а не в DBFS root. "
Вместо этого вы можете записывать данные непосредственно в DBFS (под капотом, просто учетная запись хранения), и эти данные будет сохраняться между перезапусками вашего кластера. Например, вы можете хранить некоторые примеры данных непосредственно в DBFS.
Наилучшая практика с Data Lake Gen 1
Поскольку не должно быть никаких последствий для производительности, я не Не знаю, есть ли "лучшая практика" в целом. Исходя из моего опыта, полезно иметь в виду, что оба решения могут показаться запутанными для новых пользователей, которые не знают, как проходила аутентификация.