Во-первых, вам нужно научиться читать данные из Azure озера данных Gen2 в Azure блоки данных.
Существует множество учебных пособий, из которых вы можете научиться:
- Блоки данных: импорт данных из хранилища BLOB-объектов . Этот блог посвящен импорту данных из хранилища BLOB-объектов в Azure блоки данных.
- Блоки данных Azure хранилище BLOB-объектов : в этой статье объясняется, как получить доступ к Azure хранилищу BLOB-объектов путем монтирования хранилища с помощью DBFS или напрямую с помощью API.
Во-вторых, для типа данных xml вам необходимо использовать библиотеку databricks spark- xml , которую имеет @Axel R предоставлено в комментарии.
- Импорт библиотеки spark- xml в рабочее пространство https://docs.databricks.com/user-guide/libraries.html#create -a-library (найдите spark- xml в разделе пакета maven / spark и импортируйте ее )
- Присоедините библиотеку к вашему кластеру https://docs.databricks.com/user-guide/libraries.html#attach -a-library-to-a-cluster
- Используйте следующий код в своей записной книжке, чтобы прочитать xml file, где "note" - это root файла xml.
xmldata = spark.read.format('xml').option("rootTag","note").load('dbfs:/mnt/mydatafolder/xmls/note.xml')
Пожалуйста, укажите: Как я могу прочитать XML file Azure Databricks Spark .
Объедините эти документы, я думаю, вы сможете разобраться в своей проблеме. Я не очень разбираюсь в Azure блоках данных, извините, что не могу проверить вас.
Надеюсь, это поможет.