Искра: не удалось объединить метаданные - PullRequest
0 голосов
/ 17 февраля 2020

У меня есть работа spark, которая преобразует CSV-файлы в паркет с использованием фиксированной схемы.

Теперь я хочу добавить новый столбец в схему паркета (поскольку теперь в CSV-файле добавлен новый столбец), но когда я повторно запускаю задание Spark для записи файла паркета, он говорит:

java.lang.RuntimeException: could not merge metadata: key org.apache.spark.sql.parquet.row.metadata has conflicting values:xxxx (here it shows the old schema)

Я уже добавил:

sqlContext.read()
                .schema(mySchema)
                .option("mergeSchema", "true")

Но это не работает, показывает ту же ошибку. Как мне сделать, чтобы применить новую схему при записи в паркет?

PS, когда я сгенерировал паркет, у меня есть папка _common_metadata, в которой есть все столбцы. Это искра метаданных пытается объединить? Могу ли я просто удалить его?

...