Рабочий процесс для разработки приложений обработки чисел на amazon ec2 / S3 - PullRequest
8 голосов
/ 19 февраля 2010

Много написано о развертывании приложений для обработки данных на EC2 / S3, но я хотел бы знать, каков типичный рабочий процесс для разработки таких приложений?

Допустим, у меня есть данные временного ряда объемом 1 ТБ, и мне удалось сохранить их на S3. Как мне писать приложения и выполнять интерактивный анализ данных для построения моделей машинного обучения, а затем писать большие программы для их тестирования? Другими словами, как можно настроить среду разработки в такой ситуации? Я загружаю экземпляр EC2, разрабатываю на нем программное обеспечение, сохраняю свои изменения и выключаю каждый раз, когда хочу выполнить какую-то работу?

Обычно я запускаю R или Pylab, читаю данные с локальных дисков и выполняю анализ. Затем я создаю приложения, основанные на этом анализе, и позволяю им разбираться с этими данными.

На EC2 я не уверен, что смогу это сделать. Люди хранят данные локально для анализа и используют EC2, только когда у них есть большие задания моделирования для запуска?

Мне очень любопытно узнать, что делают другие люди, особенно начинающие, у которых вся инфраструктура основана на EC2 / S3.

Ответы [ 2 ]

2 голосов
/ 19 февраля 2010

Мы создаем базовый, пользовательский AMI со всеми программами, которые, как мы знаем, нам всегда будут нужны для AMI.

Программное обеспечение, которое мы разрабатываем (и постоянно обновляем), хранится во внешнем хранилище (мы используем репозиторий Maven, но вы можете использовать все, что подходит для вашей среды.

Затем мы запускаем наш пользовательский AMI со всем необходимым, разворачиваем последнюю версию нашего программного обеспечения от Maven, и мы готовы к работе.

Итак, рабочий процесс:

Настройка

Создайте пользовательский AMI с вещами, которые нам всегда будут нужны

Текущая

Разработка программного обеспечения на месте Развертывание бинарных файлов на внешнем хранилище (в нашем случае репозиторий Maven) Запустите несколько экземпляров пользовательских AMI по мере необходимости Копировать двоичные файлы из внешнего хранилища в каждый экземпляр Запускать каждый экземпляр

0 голосов
/ 28 февраля 2010

I-slash-У нас есть некоторый опыт в том, что вы пытаетесь делать.То, что сказал Эрик Дж., В основном подводит итог.Но позвольте мне повторить:

  1. Настройте хранилище кода на сервере, который всегда работает.Мы используем Subversion.Этот сервер не обязательно должен быть машиной ec2, а может быть и ec2.Твой выбор.

  2. Создание собственного AMI с помощью;(а) Проверка вашей кодовой базы на машине EC2.(b) Установка всех зависимостей кода на этом компьютере.(c) Сохраните изображение на s3.

  3. При следующей загрузке с AMI, сохраненным в 1. Проведите эксперименты, измените код по своему желанию, проверьте изменения обратно в Subversion, чтобы при возвращенииу тебя это там сохранено.

  4. Альтернативой является использование тома EBS.Каждый раз, когда вы запускаете экземпляр EC2, присоединяйте к нему свой том EBS.Этот том может содержать ваш код и все, что вам нужно сохранить в облаке!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...