Настройка и монтирование хранилища BLOB-объектов в Azure Databricks требует нескольких шагов.
Сначала создайте учетную запись хранения , а затем создайте контейнер внутри него.
Затем запишите следующие элементы:
- Имя учетной записи хранения: имя учетной записи хранения, когда вы ее создали
- Ключ учетной записи хранения: его можно найти на портале Azure на странице ресурса.
- Имя контейнера: имя контейнера
В записной книжке Azure Databricks создайте переменные для вышеуказанных элементов.
storage_account_name = "Storage account name"
storage_account_key = "Storage account key"
container = "Container name"
Затем используйте приведенный ниже код для установки Spark.config, чтобы указать ваш экземпляр хранилища BLOB-объектов Azure.
spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
Чтобы подключить его к блоку данных Azure, используйте метод dbutils.fs.mount
.Источником является адрес вашего экземпляра хранилища BLOB-объектов Azure и определенного контейнера.Точка монтирования находится там, где она будет смонтирована в хранилище файлов Databricks в Azure Databricks.Дополнительные конфиги - это то, где вы передаете конфигурацию Spark, поэтому ее не всегда нужно устанавливать.
dbutils.fs.mount(
source = "wasbs://{0}@{1}.blob.core.windows.net".format(container, storage_account_name),
mount_point = "/mnt/<Mount name>",
extra_configs = {"fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name): storage_account_key}
)
С этими настройками вы можете теперь начать использовать mount.Чтобы убедиться, что он видит файлы в учетной записи хранения, используйте команду dbutils.fs.ls
.
dbutils.fs.ls("dbfs:/mnt/<Mount name>")
Надеюсь, это поможет!