У меня есть фрейм данных PySpark, который я пытаюсь записать в таблицу Hive (формат Parquet). Но иногда моя работа терпит неудачу из-за ошибки ниже:
org.apache.hadoop.fs.filealreadyexistsexception: <HDFSPath>/.spark-staging-<..>/load_date=20200709/part-00005-<..>.snappy.parquet for client already exists
Ниже приведена моя команда записи:
<dfName>.coaleasce(6).write.mode('overwrite').partitionBy("load_date").saveAsTable("<HiveTableName>")
Моя работа вытягивает 15 таблиц из одной базы данных Hive в другую базу данных Hive. Не все таблицы загружаются. Иногда одна или две таблицы не справляются с этой проблемой, и когда я перезапускаю задание, проблема устраняется.
Поэтому хочу знать, могу ли я применить постоянное исправление этой проблемы. Сообщите мне, если мне нужно установить какое-либо свойство перезаписи c Spark-parquet в моей конфигурации Spark.
Для таблицы OR C я нашел свойство "spark.hadoop.orc.overwrite.output.file=true"
. Итак, мне интересно, нужно ли мне установить какое-либо подобное свойство, связанное с паркетом.
Может ли кто-нибудь помочь мне здесь? Заранее спасибо.