Как настроить зависимые компоненты python spark job на кластере EMS aws - PullRequest
0 голосов
/ 25 октября 2018

Я написал программу spark, которая должна выполняться на кластере EMR.Но есть некоторые зависимые файлы и модули, используемые программой Python.Так есть ли способ настроить зависимые компоненты на работающем кластере?Можем ли мы смонтировать ведро s3 и смонтировать этот узел кластера, и можем ли поместить все зависимые компоненты на s3?Является ли это хорошей идеей, и, используя Python, как мы можем смонтировать ведра s3 на EMR?

1 Ответ

0 голосов
/ 26 октября 2018
  • (при создании кластера): вы можете использовать Amazon EMR bootstrap настраиваемые действия , которые способны выполнять сценарий bash во время создания кластера.Вы можете установить все зависимые компоненты, используя этот скрипт.Действие начальной загрузки будет выполняться на всех узлах кластера.

  • (на работающем кластере): можно использовать параметр шага Amazon EMR, чтобы создать шаг запуска команды s3-dist-cp для копирования файлов из s3.

...