Пожалуйста, проверьте свойства yarn-site.xml в /etc/hadoop/conf/yarn-site.xml,
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle,spark_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
<value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
Если mapreduce_shuffle нет, пожалуйста, добавьте свойства и перезапустите пряжуservices.
sudo stop hadoop-yarn-nodemanager
sudo start hadoop-yarn-nodemanager
Я рекомендую использовать утилиту s3-distcp , поскольку она уже доступна в кластере EMR.
s3-dist-cp --src s3://my-tables/incoming/hourly_table --dest /data/hdfslocation/path
https://aws.amazon.com/blogs/big-data/seven-tips-for-using-s3distcp-on-amazon-emr-to-move-data-efficiently-between-hdfs-and-amazon-s3/