Question

Я искал некоторую информацию на форумах MSDN, но не смог найти хороший форум / При чтении на спарк-сайте я намекаю, что здесь у меня больше шансов.Итак, в заключение, я хочу прочитать хранилище BLOB-объектов, в котором есть непрерывный поток XML-файлов, всех небольших файлов, и, наконец, мы храним эти файлы в Azure DW.Используя блоки данных Azure, я могу использовать Spark и python, но не могу найти способ «прочитать» тип xml.В некоторых примерах сценария использовалась библиотека xml.etree.ElementTree, но я не могу импортировать ее. Поэтому любая помощь, подталкивающая меня в правильном направлении, приветствуется.

jegordon · Answer 1 · 10 октября 2018

Одним из способов является использование библиотеки spark-xml блоков данных:

Импорт библиотеки spark-xml в ваше рабочее пространство https://docs.databricks.com/user-guide/libraries.html#create-a-library (поиск spark-xml в пакете maven / sparkраздел и импортируйте его)
Присоедините библиотеку к вашему кластеру https://docs.databricks.com/user-guide/libraries.html#attach-a-library-to-a-cluster
Используйте следующий код в своей записной книжке, чтобы прочитать файл XML, где «примечание» является корнем моего файла XML.

xmldata = spark.read.format ('xml'). Option ("rootTag", "note"). Load ('dbfs: / mnt / mydatafolder / xmls / note).xml ')

Пример:

Как я могу прочитать файл XML Azure Databricks Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу прочитать файл XML Azure Databricks Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы