Один из способов - использовать библиотеку spark-xml блоков данных, как показано ниже:
- Импортировать библиотеку spark-xml в ваше рабочее пространство ИЛИ
- Присоединить библиотеку к кластеру
Используйте следующий код в своей записной книжке, чтобы прочитать файл xml, где «note» - это корень моего файла xml.
xmldata = spark.read.format ('xml') .option ("rootTag", "note"). load (' dbfs: /mnt/mydatafolder/xmls/note.xml ') display (xmldata)
Пример:
Подробнее см. " Источники данных XML для Apache Spark ".
Надеюсь, это поможет.