Как я могу прочитать файл XML Azure Databricks Spark - PullRequest
0 голосов
/ 09 октября 2018

Я искал некоторую информацию на форумах MSDN, но не смог найти хороший форум / При чтении на спарк-сайте я намекаю, что здесь у меня больше шансов.Итак, в заключение, я хочу прочитать хранилище BLOB-объектов, в котором есть непрерывный поток XML-файлов, всех небольших файлов, и, наконец, мы храним эти файлы в Azure DW.Используя блоки данных Azure, я могу использовать Spark и python, но не могу найти способ «прочитать» тип xml.В некоторых примерах сценария использовалась библиотека xml.etree.ElementTree, но я не могу импортировать ее. Поэтому любая помощь, подталкивающая меня в правильном направлении, приветствуется.

1 Ответ

0 голосов
/ 10 октября 2018

Одним из способов является использование библиотеки spark-xml блоков данных:

  1. Импорт библиотеки spark-xml в ваше рабочее пространство https://docs.databricks.com/user-guide/libraries.html#create-a-library (поиск spark-xml в пакете maven / sparkраздел и импортируйте его)
  2. Присоедините библиотеку к вашему кластеру https://docs.databricks.com/user-guide/libraries.html#attach-a-library-to-a-cluster
  3. Используйте следующий код в своей записной книжке, чтобы прочитать файл XML, где «примечание» является корнем моего файла XML.

xmldata = spark.read.format ('xml'). Option ("rootTag", "note"). Load ('dbfs: / mnt / mydatafolder / xmls / note).xml ')

Пример:

Example

...