Единственный способ сделать что-либо для образа EMR - использовать действия начальной загрузки.Выполнение этого из консоли означает, что вы будете менять только главный узел, а не узлы задач, которые выполняют обработку.Действия начальной загрузки запускаются один раз при запуске на всех узлах и могут быть простым сценарием, который получает shell exec'd.
elastic-mapreduce --create --bootstrap-action "s3://bucket/path/to/script" ...
Чтобы ускорить изменения в образе EMR, скопируйте файлы после установки и загрузите вS3.Затем используйте загрузочное действие для загрузки и развертывания.Вам придется хранить отдельные архивы для 32-битных (микро, малых, средних) и 64-битных машин.
Команда для загрузки из S3 в сценарии:
hadoop fs -get s3://bucket/path/to/archive /tmp/archive