Установите com.databricks.spark. xml на кластер emr - PullRequest
0 голосов
/ 19 февраля 2020

Кто-нибудь знает, как мне установить пакет com.databricks.spark. xml в кластере EMR.

Мне удалось подключиться к основному emr, но не удалось знать, как устанавливать пакеты в кластере emr.

код

sc.install_pypi_package("com.databricks.spark.xml")

1 Ответ

1 голос
/ 13 марта 2020

На главном узле EMR:

cd /usr/lib/spark/jars
sudo wget https://repo1.maven.org/maven2/com/databricks/spark-xml_2.11/0.9.0/spark-xml_2.11-0.9.0.jar

Убедитесь, что выбран правильный сосуд в соответствии с версией Spark и указаниями, приведенными в https://github.com/databricks/spark-xml.

Затем запустите ноутбук Jupyter, и вы сможете запустить следующее:

df = spark.read.format('com.databricks.spark.xml').options(rootTag='objects').options(rowTag='object').load("s3://bucket-name/sample.xml")
...