Вы должны загрузить последнюю версию "spark- xml" из репозитория maven.
Действия по установке сторонних библиотек:
Шаг 1 : Создать кластер блоков данных.
Шаг 2: Выбрать созданный кластер.
Шаг 3: Выбрать библиотеки => Установить новые => Выбрать Библиотека Источник = "Maven" => Координаты => Поиск пакетов => Выберите Maven Central => Поиск необходимого пакета. Пример: (com.databricks: spark-xml_2.12: 0.9.0) => Установить
Для чтения * Файл 1033 *, используя azure, указывает данные ниже кода:
df = spark.read .format("com.databricks.spark.xml") .option("rowTag", "book") .load(inputFile)
Для получения дополнительной информации см. " Чтение XML в Spark ".