Эффективное управление большими объемами данных с помощью SageMaker для обучения модели keras - PullRequest
0 голосов
/ 19 сентября 2018

Я работаю над проектом глубокого обучения с около 700 ГБ табличных данных временных рядов в тысячах CSV-файлов (каждый около 15 МБ).
Все данные находятся на S3, и перед вводом в модель требуется некоторая предварительная обработка.Вопрос в том, как лучше всего автоматизировать процесс загрузки, предварительной обработки и обучения.

Является ли пользовательский генератор keras со встроенной предварительной обработкой лучшим решением?

1 Ответ

0 голосов
/ 19 сентября 2018

Предварительная обработка подразумевает, что это то, что вы, возможно, захотите отделить от исполнения модели и запустить отдельно, возможно, по расписанию или в ответ на поступающие новые данные.

Если это так, вы, вероятно, захотитевыполнить предварительную обработку вне SageMaker.Вы можете организовать его, используя Glue , или написать собственное задание и запустить его через AWS Batch или, альтернативно, в кластере EMR.

Таким образом, ваши KerasНоутбук может загружать уже предварительно обработанные данные, обучать и тестировать с помощью SageMaker.

С небольшой осторожностью вы сможете постепенно выполнять хотя бы некоторые тяжелые операции на этапе предварительной обработки, экономя при этом как время, так и затраты на выходе.в конвейере глубокого обучения.

...