Я настроил кластер с версией среды исполнения блоков данных 5.1 (включая Apache Spark 2.4.0, Scala 2.11) и Python 3. Я также установил библиотеку hadoop azure (hadoop-azure-3.2.0) в кластер.
Я пытаюсь прочитать большой двоичный объект, хранящийся в моей учетной записи хранения больших двоичных объектов, который представляет собой просто текстовый файл, содержащий, например, некоторые числовые данные, разделенные пробелами.Я использовал шаблон, сгенерированный блоками данных, для чтения данных BLOB-объектов
spark.conf.set(
"fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
storage_account_access_key)
df = spark.read.format(file_type).option("inferSchema", "true").load(file_location)
, где file_location - мой файл BLOB-объектов (https://xxxxxxxxxx.blob.core.windows.net).
. Я получаю следующую ошибку:
Нет файловой системы с именем https
Я пытался использовать sc.textFile (file_location), чтобы прочитать в rdd и получить ту же ошибку.