Docker all-spark-notebook: используйте блоки данных spark-xml с Scala - PullRequest
0 голосов
/ 02 октября 2018

Я использую ноутбук Jupyter с Spark и ядром Scala, используя Docker и хотел бы использовать анализатор данных xml , например, так:

val df = sqlContext.read
                   .format("com.databricks.spark.xml")
                   .option("rowTag", "page")
                   .load(fileName)

К сожалению, я получаю следующее сообщение об ошибке:

Message: Failed to find data source: com.databricks.spark.xml. 
Please find packages at http://spark.apache.org/third-party-projects.html
...

Я хотел бы использовать пакет в блокноте с ядром Scala, и есть решение для PySpark .По сути, я задаю тот же вопрос, что и тот, который был задан в комментарии к этому ответу .

Любая помощь будет принята с благодарностью.

...