Я не уверен, что могу ответить на вопрос о том, какой метод использовать, но я могу объяснить, как бы я подумал над этим вопросом. Я автор Segue, так что имейте это в виду:)
На несколько вопросов, на которые я бы ответил ДО Я начал пытаться выяснить, как запустить AWS (или любую другую систему):
- Сколько клиентов в данных обучения?
- Насколько велики данные обучения (что вы отправите в AWS)?
- Каково ожидаемое среднее время выполнения для подгонки модели к одному клиенту ... для всех прогонов?
- Когда вы подбираете модель для одного клиента, сколько данных генерируется (что вы получите от AWS)?
Просто взглянув на тренировочные данные, они не выглядят такими уж большими (~ 280 МБ). Так что это не проблема больших данных. Если на создание ваших моделей уходит много времени, это может быть проблемой "большого процессора", которую Segue может или не может быть хорошим инструментом, который поможет вам решить.
В ответ на ваш конкретный вопрос о том, как перенести данные в AWS, Segue делает это путем сериализации объекта списка, который вы предоставляете команде emrlapply (), загрузки сериализованного объекта в S3, а затем с помощью службы Elastic Map Reduce для Поток объекта через Hadoop. Но как пользователь Segue вам не нужно это знать. Вам просто нужно вызвать emrlapply () и передать ему данные списка (вероятно, список, где каждый элемент представляет собой матрицу или фрейм данных одного покупателя) и функцию (которую вы пишете в соответствии с выбранной моделью), и Segue принимает заботиться об остальном. Но имейте в виду, что самое первое, что делает Segue, когда вы вызываете emrlapply (), - это сериализация (иногда медленно) и загрузка ваших данных в S3. Поэтому, в зависимости от размера данных и скорости загрузки вашего интернет-соединения, это может быть медленным. Я согласен с утверждением Маркуса, что у вас «точно будут проблемы с передачей данных». Это явно ФУД. Я использую Segue для стохастических симуляций, которые отправляют / получают 300 МБ / 1 ГБ с некоторой регулярностью. Но я склонен запускать эти симуляции из экземпляра AWS, поэтому я отправляю и получаю данные из одной стойки AWS в другую, что делает все намного быстрее.
Если вы хотите провести анализ AWS и получить удовольствие от R в облаке, я рекомендую AMI Дрю Конвея для научных вычислений . Использование его AMI избавит вас от необходимости много устанавливать / собирать. Чтобы загрузить данные на ваш работающий компьютер, после настройки сертификатов ssh вы можете использовать scp для загрузки файлов в свой экземпляр.
Мне нравится запускать RStudio на моих экземплярах Amazon. Это потребует настройки пароля доступа к вашему экземпляру. Вокруг есть много ресурсов для помощи в этом.