Много написано о развертывании приложений для обработки данных на EC2 / S3, но я хотел бы знать, каков типичный рабочий процесс для разработки таких приложений?
Допустим, у меня есть данные временного ряда объемом 1 ТБ, и мне удалось сохранить их на S3. Как мне писать приложения и выполнять интерактивный анализ данных для построения моделей машинного обучения, а затем писать большие программы для их тестирования? Другими словами, как можно настроить среду разработки в такой ситуации? Я загружаю экземпляр EC2, разрабатываю на нем программное обеспечение, сохраняю свои изменения и выключаю каждый раз, когда хочу выполнить какую-то работу?
Обычно я запускаю R или Pylab, читаю данные с локальных дисков и выполняю анализ. Затем я создаю приложения, основанные на этом анализе, и позволяю им разбираться с этими данными.
На EC2 я не уверен, что смогу это сделать. Люди хранят данные локально для анализа и используют EC2, только когда у них есть большие задания моделирования для запуска?
Мне очень любопытно узнать, что делают другие люди, особенно начинающие, у которых вся инфраструктура основана на EC2 / S3.