Теперь в Amazon есть оболочка, реализованная через distcp, а именно: s3distcp .
S3DistCp - это расширение DistCp, оптимизированное для работы сAmazon Web Services (AWS), в частности Amazon Simple Storage Service (Amazon S3).Вы используете S3DistCp, добавляя его в качестве шага в потоке работ.Используя S3DistCp, вы можете эффективно копировать большие объемы данных из Amazon S3 в HDFS, где они могут обрабатываться с помощью последующих шагов в потоке заданий Amazon Elastic MapReduce (Amazon EMR).Вы также можете использовать S3DistCp для копирования данных между корзинами Amazon S3 или из HDFS в Amazon S3
Пример Копирование файлов журнала из Amazon S3 в HDFS
Это следующееВ примере показано, как скопировать файлы журналов, хранящиеся в корзине Amazon S3, в HDFS.В этом примере опция --srcPattern используется для ограничения данных, копируемых в журналы демонов.
elastic-mapreduce --jobflow j-3GY8JC4179IOJ --jar \
s3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar \
--args '--src,s3://myawsbucket/logs/j-3GY8JC4179IOJ/node/,\
--dest,hdfs:///output,\
--srcPattern,.*daemons.*-hadoop-.*'