Я попытался использовать чтение pyspark. Но это не работает, поскольку он не может извлечь подробности корневого тега. Результат при частичном выводе.
spark.read.format('xml').option('rowTag','rowtagname').option('valueTag','valuetagname').load(vlSrcFile)
Фрейм данных, содержащий все вложенные элементы xmlвместе с корневыми элементами в виде столбцов данных