Я использую ноутбук Jupyter с Spark и ядром Scala, используя Docker и хотел бы использовать анализатор данных xml
, например, так:
val df = sqlContext.read
.format("com.databricks.spark.xml")
.option("rowTag", "page")
.load(fileName)
К сожалению, я получаю следующее сообщение об ошибке:
Message: Failed to find data source: com.databricks.spark.xml.
Please find packages at http://spark.apache.org/third-party-projects.html
...
Я хотел бы использовать пакет в блокноте с ядром Scala, и есть решение для PySpark .По сути, я задаю тот же вопрос, что и тот, который был задан в комментарии к этому ответу .
Любая помощь будет принята с благодарностью.