Azure Datalake Store Gen2 читает файлы из Databricks с помощью библиотеки scala spark - PullRequest
0 голосов
/ 17 марта 2020

Я пытаюсь развернуть библиотеку Scala на Azure Блок данных (не записная книжка) для выполнения некоторых вычислений. Я пытаюсь прочитать некоторые файлы avro из каталога Azure Datalake Store Gen 2, выполнить некоторые операции и затем снова сохранить его, используя avro, в другом каталоге.

Я следую этому руководству .

Насколько я понимаю, мне нужно смонтировать каталог Datalake Azure, чтобы я мог читать файлы avro непосредственно там, поэтому мне нужно сделать что-то вроде этого:

dbutils.fs.mount(
  source = "abfss://<file-system-name>@<storage-account-name>.dfs.core.windows.net/",
  mountPoint = "/mnt/<mount-name>",
  extraConfigs = configs)

Моя проблема в том, что я не знаю, как импортировать этот объект "dbutils" в мой проект. Я также использую библиотеку Java SDK (версия 12.0.0-preview.6) для извлечения файлов, но в основном я не знаю, как это сделать с помощью Databricks.

Любая помощь или подсказка будет принята с благодарностью.

1 Ответ

1 голос
/ 17 марта 2020

SDK Azure Storage Java не требуется, если вы собираетесь монтировать каталог с помощью dbutils (или наоборот).

Монтирование dbutils можно использовать для монтирования учетной записи хранения один раз, поэтому после этого вы можете просто использовать путь / mnt.

Вы можете найти dbutils в следующем хранилище:

libraryDependencies += "com.databricks" % "dbutils-api_2.11" % "0.0.4"

Более подробная информация по адресу: https://docs.databricks.com/dev-tools/databricks-utils.html#databricks -utilities-api-library

You Также всегда можно напрямую использовать путь abfss, поэтому нет необходимости в монтировании.

...