У меня есть работа spark, которая преобразует CSV-файлы в паркет с использованием фиксированной схемы.
Теперь я хочу добавить новый столбец в схему паркета (поскольку теперь в CSV-файле добавлен новый столбец), но когда я повторно запускаю задание Spark для записи файла паркета, он говорит:
java.lang.RuntimeException: could not merge metadata: key org.apache.spark.sql.parquet.row.metadata has conflicting values:xxxx (here it shows the old schema)
Я уже добавил:
sqlContext.read()
.schema(mySchema)
.option("mergeSchema", "true")
Но это не работает, показывает ту же ошибку. Как мне сделать, чтобы применить новую схему при записи в паркет?
PS, когда я сгенерировал паркет, у меня есть папка _common_metadata, в которой есть все столбцы. Это искра метаданных пытается объединить? Могу ли я просто удалить его?