Как подключить данные с помощью хранилища BLOB-объектов Azure? - PullRequest
0 голосов
/ 26 июня 2019

Я новичок в Azure Databricks, и мой наставник предложил мне пройти Bootcamp машинного обучения на

https://aischool.microsoft.com/en-us/machine-learning/learning-paths/ai-platform-engineering-bootcamps/custom-machine-learning-bootcamp

К сожалению, после успешной настройки Azure Databricks ястолкнулись с некоторыми проблемами на шаге 2. Я успешно добавил файл 1_01_introduction в свое рабочее пространство в качестве записной книжки.Однако, хотя в руководстве рассказывается о том, как монтировать данные в хранилище BLOB-объектов Azure, кажется, что этот шаг пропущен, что приводит к ошибкам на всех следующих этапах кодирования учебника.Первый бит кода (который учебник советует мне запускать) и ошибка, возникающая впоследствии, включены ниже.

% run "../presenter/includes/mnt_blob"

Записная книжка не найдена: ведущий / includes / mnt_blob.Записные книжки могут быть указаны через относительный путь (./Notebook или ../folder/Notebook) или через абсолютный путь (/ Abs / Path / to / Notebook).Убедитесь, что вы правильно указали путь.

Stacktrace: / 1_01_introduction: python

Насколько я могу судить, хранилище BLOB-объектов Azure просто еще не настроено, и поэтому кодЯ запускаю (а также код всех следующих шагов) не могу найти элементы учебника, которые должны храниться в BLOB-объекте.Любая помощь, которую вы, ребята, можете оказать, будет очень признательна.

1 Ответ

0 голосов
/ 26 июня 2019

Настройка и монтирование хранилища BLOB-объектов в Azure Databricks требует нескольких шагов.

Сначала создайте учетную запись хранения , а затем создайте контейнер внутри него.

Затем запишите следующие элементы:

  • Имя учетной записи хранения: имя учетной записи хранения, когда вы ее создали
  • Ключ учетной записи хранения: его можно найти на портале Azure на странице ресурса.
  • Имя контейнера: имя контейнера

В записной книжке Azure Databricks создайте переменные для вышеуказанных элементов.

storage_account_name = "Storage account name"
storage_account_key = "Storage account key"
container = "Container name"

Затем используйте приведенный ниже код для установки Spark.config, чтобы указать ваш экземпляр хранилища BLOB-объектов Azure.

spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)

Чтобы подключить его к блоку данных Azure, используйте метод dbutils.fs.mount.Источником является адрес вашего экземпляра хранилища BLOB-объектов Azure и определенного контейнера.Точка монтирования находится там, где она будет смонтирована в хранилище файлов Databricks в Azure Databricks.Дополнительные конфиги - это то, где вы передаете конфигурацию Spark, поэтому ее не всегда нужно устанавливать.

dbutils.fs.mount(
 source = "wasbs://{0}@{1}.blob.core.windows.net".format(container, storage_account_name),
 mount_point = "/mnt/<Mount name>",
 extra_configs = {"fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name): storage_account_key}
)

С этими настройками вы можете теперь начать использовать mount.Чтобы убедиться, что он видит файлы в учетной записи хранения, используйте команду dbutils.fs.ls.

dbutils.fs.ls("dbfs:/mnt/<Mount name>")

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...