Кто-нибудь знает, как мне установить пакет com.databricks.spark. xml в кластере EMR.
Мне удалось подключиться к основному emr, но не удалось знать, как устанавливать пакеты в кластере emr.
код
sc.install_pypi_package("com.databricks.spark.xml")
На главном узле EMR:
cd /usr/lib/spark/jars sudo wget https://repo1.maven.org/maven2/com/databricks/spark-xml_2.11/0.9.0/spark-xml_2.11-0.9.0.jar
Убедитесь, что выбран правильный сосуд в соответствии с версией Spark и указаниями, приведенными в https://github.com/databricks/spark-xml.
Затем запустите ноутбук Jupyter, и вы сможете запустить следующее:
df = spark.read.format('com.databricks.spark.xml').options(rootTag='objects').options(rowTag='object').load("s3://bucket-name/sample.xml")