Используя S3DistCp, вы можете эффективно копировать большие объемы данных из Amazon S3 в HDFS, где они могут быть обработаны с помощью последующих шагов в кластере Amazon EMR.
Вы можете вызвать S3DistCp, добавив его как шаг вваш существующий кластер EMR.Шаги можно добавить в кластер при запуске или в работающий кластер с помощью консоли, интерфейса командной строки AWS или API.
Таким образом, вы контролируете количество рабочих при создании кластера EMR, или y можете изменить размер существующего кластера .Точные шаги вы можете проверить в документах EMR .