Писпарк с DBUtils - PullRequest
       16

Писпарк с DBUtils

0 голосов
/ 30 апреля 2020

Я пытаюсь использовать DBUtils и Pyspark из сценария jupyter notebook python (работает на Docker) для доступа к Azure Data Lake Blob. Тем не менее, я не могу заставить dbutils быть распознанным (т.е. NameError: имя 'dbutils' не определено). Я попытался явно импортировать DBUtils, а не импортировать его, как я прочитал:

"Важно помнить, что никогда не следует запускать import dbutils в вашем скрипте Python. Эта команда завершается успешно, но затирает все команды, так что ничего не работает. Он импортирован по умолчанию. " Ссылка

Я также пробовал решение, опубликованное здесь , но оно все равно выдало "KeyError: 'dbutils'"

spark.conf.set('fs.azure.account.key.<storage account>.blob.core.windows.net', <storage account access key>)
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "true")
dbutils.fs.ls("abfss://<container>@<storage account>.dfs.core.windows.net/")
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "false")

Делает У кого-нибудь есть решение этой проблемы?

1 Ответ

1 голос
/ 30 апреля 2020

dbutil поддерживается только внутри блоков данных. Чтобы получить доступ к хранилищу больших двоичных объектов из искровых сред без базы данных, таких как виртуальная машина на Azure или HDI-Spark, необходимо изменить файл core-site.xml. Вот краткое руководство для автономной искровой среды.

...