В Databricks вы можете получить доступ к файлам, хранящимся в ADLS, используя любой из методов, описанных ниже. Существует три способа доступа к хранилищу озера данных Azure Gen2:
- Монтирование файловой системы хранилища озера данных Azure Gen2 в DBFS с использованием субъекта службы и OAuth 2.0.
- Использование субъекта службы напрямую.
- Используйте непосредственно ключ доступа к учетной записи хранилища Azure Data Lake Storage Gen2.
Действия для подключения и доступа к файлам в вашей файловой системе, как если бы они были локальными файлами:
Чтобы подключить хранилище озера данных Azure Gen2 или папку внутри контейнера, используйте следующую команду:
Синтаксис:
configs = {"fs.azure.account.auth.type": "OAuth",
"fs.azure.account.oauth.provider.type": "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider",
"fs.azure.account.oauth2.client.id": "<appId>",
"fs.azure.account.oauth2.client.secret": "<password>",
"fs.azure.account.oauth2.client.endpoint": "https://login.microsoftonline.com/<tenant>/oauth2/token",
"fs.azure.createRemoteFileSystemDuringInitialization": "true"}
dbutils.fs.mount(
source = "abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/folder1",
mount_point = "/mnt/flightdata",
extra_configs = configs)
Пример:
После монтирования ADLS вы можете получить доступ к вашей файловой системе, как если бы они были локальными файлами, например:
df = spark.read.csv("/mnt/flightdata/flightdata.csv", header="true")
display(df)
Пример:
Ссылка: Блоки данных - хранилище озера данных Azure Gen2 .
Надеюсь, это поможет.