У меня есть XML-файл, через который я должен прочитать данные в pyspark.Я использую API-интерфейс spark-xml, чтобы прочитать его, но он не работает. Ссылка здесь для git-репозитория .
Я использовал API Python, но он не показывает результат и выдает исключение.
java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.xml.
Please find packages at http://spark.apache.org/third-party-projects.html
df = spark.read \
.format('com.databricks.spark.xml') \
.options(rowTag='Receipt') \
.load('***.XML', schema = customSchema)
Когда я перехожу по предложенной ссылке, она ничего не показывает для xml.
Наконец, я хочу прочитать файл xml и затем сохранить его в фрейме данных pyspark.