Question

У меня есть папка, которая состоит из файлов XML, и мы предполагаем, что эти файлы имеют одинаковую структуру.Но некоторые из этих файлов являются неполными из-за ошибок в приложении, которое генерирует эти файлы:

Ожидаемая структура:

root
 |-- R: struct (nullable = true)
 |    |-- LTI: struct (nullable = true)
 |    |    |-- C: long (nullable = true)
 |    |    |-- V: long (nullable = true)
 |    |-- MFV: string (nullable = true)

Необходимо игнорировать структуру:

root
 |-- R: struct (nullable = true)
 |    |-- LTI: long (nullable = true)
 |    |-- MFV: string (nullable = true)

Вот как я анализирую

df = spark.read \
  .format("com.databricks.spark.xml") \
  .options(rowTag="RList") \
  .load("/mnt/data/uploads/*/*/*/RList.xml")

df.select(
  "R.LTI.C", 
  "R.LTI.V", 
  "R.MFV", 
).show()

Вот что я ловлю, когда он пытается загрузить неполный XML

Can't extract value from R#204.LTI: need struct type but got string;"

Мой вопрос: как игнорировать такие файлы?

spark xml: нужен тип структуры, но есть строка;

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

spark xml: нужен тип структуры, но есть строка;

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы