Не удалось переименовать S3AFileStatus - PullRequest
0 голосов
/ 03 октября 2019

Я получаю следующую ошибку при работе на локальном EC2 с 'hadoop-3.1.1' и 'spark-2.4.0-bin-without-hadoop'.

[Stage 6:>                                                       (0 + 32) / 200]
2019-10-03 15:40:34 ERROR SparkHadoopMapRedUtil:91 - Error committing the output of task: attempt_20191003154033_0006_m_000000_0
java.io.IOException: 
Failed to rename S3AFileStatus{path=s3a://mck-547-data/data_dev/z_ref/ref_proc/_temporary/0/_temporary/attempt_20191003154033_0006_m_000000_0/part-00000-f3c3b55e-97e9-47d1-a7e2-1b35177e6206-c000.snappy.parquet; 
isDirectory=false; length=7945; replication=1; blocksize=33554432; modification_time=1570117234000; access_time=0; owner=kk_shinde; group=kk_shinde; permission=rw-rw-rw-; isSymlink=false; hasAcl=false; isEncrypted=false; isErasureCoded=false} isEmptyDirectory=FALSE 
to s3a://mck-547-data/data_dev/z_ref/ref_proc/part-00000-f3c3b55e-97e9-47d1-a7e2-1b35177e6206-c000.snappy.parquet

Я погуглил и всессылки для коммиттера, как показано ниже.

https://issues.apache.org/jira/browse/HADOOP-14161

https://github.com/apache/hadoop/blob/trunk/hadoop-tools/hadoop-aws/src/site/markdown/tools/hadoop-aws/committers.md

Попробовал добавить следующие свойства в spark-conf:

#spark.hadoop.fs.s3a.buffer.dir /tmp/spark_tmp/
#spark.hadoop.s.s3a.committer.staging.conflict-mode replace

Но все равно получаю эту ошибку. Просто интересно, что было бы простым решением. Мы пытаемся записать локальный код и выполнить синхронизацию S3 в коде. Но это очень грубый способ сделать это.

Есть предложения?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...