Файловая система блоков данных (DBFS) - это распределенная файловая система, смонтированная в рабочей области Azure Databricks и доступная в кластерах Azure Databricks. Если вы используете локальный файловый API, вы должны ссылаться на файловую систему Databricks. Azure Databricks настраивает каждый узел кластера с помощью монтирования FUSE / dbfs , которое позволяет процессам, работающим на узлах кластера, выполнять чтение и запись в базовый уровень распределенного хранилища с помощью локальных файловых API (см. Также документацию ).
Таким образом, в путь должен быть включен / dbfs ::
root = "/dbfs/mnt/rawdata/parent/"
Это отличается от работы с Утилита файловой системы Databricks (DBUtils). Утилиты файловой системы обращаются к Файловой системе Databricks, упрощая использование блоков данных Azure в качестве файловой системы:
dbutils.fs.ls("/mnt/rawdata/parent/")
Для больших озер данных я могу порекомендовать пример Scala в База знаний ,Преимущество состоит в том, что он запускает распечатку для всех распределенных дочерних листов, поэтому будет работать и для больших каталогов.