Сбой этапа Spark с ошибкой FileAlreadyExists - PullRequest
0 голосов
/ 09 июля 2020

У меня есть фрейм данных PySpark, который я пытаюсь записать в таблицу Hive (формат Parquet). Но иногда моя работа терпит неудачу из-за ошибки ниже:

org.apache.hadoop.fs.filealreadyexistsexception: <HDFSPath>/.spark-staging-<..>/load_date=20200709/part-00005-<..>.snappy.parquet for client already exists

Ниже приведена моя команда записи:

<dfName>.coaleasce(6).write.mode('overwrite').partitionBy("load_date").saveAsTable("<HiveTableName>")

Моя работа вытягивает 15 таблиц из одной базы данных Hive в другую базу данных Hive. Не все таблицы загружаются. Иногда одна или две таблицы не справляются с этой проблемой, и когда я перезапускаю задание, проблема устраняется.

Поэтому хочу знать, могу ли я применить постоянное исправление этой проблемы. Сообщите мне, если мне нужно установить какое-либо свойство перезаписи c Spark-parquet в моей конфигурации Spark.

Для таблицы OR C я нашел свойство "spark.hadoop.orc.overwrite.output.file=true". Итак, мне интересно, нужно ли мне установить какое-либо подобное свойство, связанное с паркетом.

Может ли кто-нибудь помочь мне здесь? Заранее спасибо.

...