Question

Я написал программу spark, которая должна выполняться на кластере EMR.Но есть некоторые зависимые файлы и модули, используемые программой Python.Так есть ли способ настроить зависимые компоненты на работающем кластере?Можем ли мы смонтировать ведро s3 и смонтировать этот узел кластера, и можем ли поместить все зависимые компоненты на s3?Является ли это хорошей идеей, и, используя Python, как мы можем смонтировать ведра s3 на EMR?

Naveen Cotha · Answer 1 · 26 октября 2018

(при создании кластера): вы можете использовать Amazon EMR bootstrap настраиваемые действия , которые способны выполнять сценарий bash во время создания кластера.Вы можете установить все зависимые компоненты, используя этот скрипт.Действие начальной загрузки будет выполняться на всех узлах кластера.
(на работающем кластере): можно использовать параметр шага Amazon EMR, чтобы создать шаг запуска команды s3-dist-cp для копирования файлов из s3.

Как настроить зависимые компоненты python spark job на кластере EMS aws

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как настроить зависимые компоненты python spark job на кластере EMS aws

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы