Не удается подключиться к Azure Data Lake Gen2 с помощью PySpark и Databricks Connect - PullRequest
1 голос
/ 21 июня 2019

Недавно Databricks запустил Databricks Connect, что

позволяет писать задания с использованием собственных API Spark и выполнять их удаленно в кластере Azure Databricks, а не в локальном сеансе Spark.

Работает нормально, за исключением случаев, когда я пытаюсь получить доступ к файлам в Azure Data Lake Storage Gen2. Когда я выполню это:

spark.read.json("abfss://...").count()

Я получаю эту ошибку:

java.lang.RuntimeException: java.lang.ClassNotFoundException: Class shaded.databricks.v20180920_b33d810.org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem not found   at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)

Кто-нибудь знает, как это исправить?

Дополнительная информация:

1 Ответ

0 голосов
/ 22 июня 2019

Если вы монтируете хранилище, а используете сервис-принципал, вы должны найти следующее: https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html

Я разместил здесь несколько инструкций по поводу ограничений подключаемых блоков данных. https://datathirst.net/blog/2019/3/7/databricks-connect-limitations

...