Блоки данных Azure - невозможно прочитать простой файл хранилища больших двоичных объектов из записной книжки - PullRequest
0 голосов
/ 05 февраля 2019

Я настроил кластер с версией среды исполнения блоков данных 5.1 (включая Apache Spark 2.4.0, Scala 2.11) и Python 3. Я также установил библиотеку hadoop azure (hadoop-azure-3.2.0) в кластер.

Я пытаюсь прочитать большой двоичный объект, хранящийся в моей учетной записи хранения больших двоичных объектов, который представляет собой просто текстовый файл, содержащий, например, некоторые числовые данные, разделенные пробелами.Я использовал шаблон, сгенерированный блоками данных, для чтения данных BLOB-объектов

    spark.conf.set(
      "fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
      storage_account_access_key)
    df = spark.read.format(file_type).option("inferSchema", "true").load(file_location)

, где file_location - мой файл BLOB-объектов (https://xxxxxxxxxx.blob.core.windows.net).

. Я получаю следующую ошибку:

Нет файловой системы с именем https

Я пытался использовать sc.textFile (file_location), чтобы прочитать в rdd и получить ту же ошибку.

enter image description here

Ответы [ 2 ]

0 голосов
/ 27 мая 2019

Вам необходимо смонтировать BLOB-объект с внешним местоположением, чтобы получить к нему доступ через блоки данных Azure.

Ссылка: https://docs.databricks.com/spark/latest/data-sources/azure/azure-storage.html#mount-azure-blob-storage-containers-with-dbfs

0 голосов
/ 07 февраля 2019

Ваше местоположение файла должно быть в формате:

"wasbs://<your-container-name>@<your-storage-account-name>.blob.core.windows.net/<your-directory-name>"

См .: https://docs.databricks.com/spark/latest/data-sources/azure/azure-storage.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...