Можете ли вы загрузить стандартные настройки интерпретатора Zeppelin из S3? - PullRequest
0 голосов
/ 28 мая 2019

Наша компания создает набор общих внутренних функций и заданий Spark, и я хотел бы убедиться, что наши специалисты по данным имеют доступ ко всем этим при создании прототипа в Zeppelin.

В идеале, я бы хотел, чтобы они запустили ноутбук AWN на AWS EMR и загрузили на него автоматически созданный файл зависимостей, без необходимости каждый раз вручную вводить информацию maven (частное хранилище). местоположение / учетные данные, информация о пакете и т. д.).

Прямо сейчас у нас загружен jar зависимостей на S3, и с некоторой работой мы можем получить частный репозиторий maven для его размещения.

Я вижу, что ZEPPELIN_INTERPRETER_DIR сохраняет настройки интерпретатора, но я не думаю, что он может загружаться из общего расположения по умолчанию (например, S3 или чего-то еще)

Есть ли способ сообщить Zeppelin о кластере EMR, чтобы он загружал настройки интерпретатора из общего местоположения? Я не могу быть первым человеком, который хочет этого.


Другие мысли, которые у меня были, но я еще не пробовал:

Сценарий, использующий параметры строки aws cmd для запуска кластера EMR со всеми необходимыми настройками, предварительно созданными для вас. (Может также загрузить зависимость .jar, если мы не можем заставить работать maven)

Используйте инфраструктуру как код для запуска кластеров с необходимыми настройками.

1 Ответ

1 голос
/ 29 мая 2019

Я не верю, что можно сказать EMR загружать настройки из общего места.Первая мысль, которую вы включили, - это путь imo - вы должны aws emr create ..., и это создание будет включать в себя шаг сценария оболочки для замены /etc/zeppelin/conf.dist/interpreter.json путем загрузки интересующего interpreter.json из S3, а затем жесткий перезапуск zeppelin (sudo stop zeppelin; sudo start zeppelin).

...