Невозможно прочитать данные XML с помощью pyspark для кадра данных - PullRequest
2 голосов
/ 08 апреля 2019

У меня есть XML-файл, через который я должен прочитать данные в pyspark.Я использую API-интерфейс spark-xml, чтобы прочитать его, но он не работает. Ссылка здесь для git-репозитория .

Я использовал API Python, но он не показывает результат и выдает исключение.

java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.xml.
Please find packages at http://spark.apache.org/third-party-projects.html
df = spark.read \
.format('com.databricks.spark.xml') \
.options(rowTag='Receipt') \
.load('***.XML', schema = customSchema)

Когда я перехожу по предложенной ссылке, она ничего не показывает для xml.

Наконец, я хочу прочитать файл xml и затем сохранить его в фрейме данных pyspark.

...