Можно ли указать количество картографов-редукторов при использовании s3-dist-cp? - PullRequest
0 голосов
/ 05 июля 2019

Я пытаюсь скопировать данные из кластера EMR в S3 с помощью s3-distcp.Могу ли я указать число редукторов, превышающее значение по умолчанию, чтобы ускорить мой процесс?

Ответы [ 2 ]

1 голос
/ 13 июля 2019

Для настройки количества редукторов вы можете использовать свойство mapreduce.job.reduces, аналогичное приведенному ниже:

s3-dist-cp -Dmapreduce.job.reduces=10 --src hdfs://path/to/data/ --dest s3://path/to/s3/

0 голосов
/ 07 июля 2019

Используя S3DistCp, вы можете эффективно копировать большие объемы данных из Amazon S3 в HDFS, где они могут быть обработаны с помощью последующих шагов в кластере Amazon EMR.

Вы можете вызвать S3DistCp, добавив его как шаг вваш существующий кластер EMR.Шаги можно добавить в кластер при запуске или в работающий кластер с помощью консоли, интерфейса командной строки AWS или API.

Таким образом, вы контролируете количество рабочих при создании кластера EMR, или y можете изменить размер существующего кластера .Точные шаги вы можете проверить в документах EMR .

...