Каков наилучший способ передачи данных из AWS SQS в S3? - PullRequest
0 голосов
/ 07 сентября 2018

Вот случай - у меня большой набор данных, временно сохраненный в AWS SQS (около 200 ГБ).

Моя главная цель - сохранить данные, чтобы я мог получить к ним доступ для построения модели машинного обучения с использованиемтакже AWS.Я полагаю, я должен перенести данные в ведро S3.И хотя это просто, когда вы имеете дело с маленькими наборами данных, я не уверен, что лучший способ справиться с большими.

Я никак не могу сделать это локально на своем ноутбуке, не так ли?Итак, я могу создать экземпляр ec2 и обработать данные там?У Amazon так много разных решений и способов интеграции, что это немного сбивает с толку.

Спасибо за вашу помощь!

1 Ответ

0 голосов
/ 07 сентября 2018

для построения модели машинного обучения с использованием также AWS. Полагаю, мне следует перенести данные в корзину S3.

Имхо хорошая идея. Действительно, S3 - лучший вариант для сохранения данных и возможности их повторного использования (в отличие от sqs). Инструменты AWS (sagemaker, ml) могут напрямую использовать контент, хранящийся в s3. Большинство систем машинного обучения могут читать файлы, где вы можете легко скопировать файлы из s3 или смонтировать корзину как файловую систему (не мой любимый вариант, но возможный)

И хотя это просто, когда вы имеете дело с небольшими наборами данных, я не уверен, что лучший способ справиться с большими наборами.

Это зависит от того, какие данные у вас есть, как вы хотите хранить и обрабатывать файлы данных.

Если вы планируете иметь файл для каждого сообщения sqs, я бы предложил создать лямбда-функцию (при условии, что вы можете прочитать и сохранить сообщение достаточно быстро).

Если вы хотите объединить и / или объединить исходные сообщения, или обработка сообщения займет слишком много времени, вы можете написать сценарий для чтения и обработки данных на сервере.

Нет способа, чтобы я мог сделать это локально на моем ноутбуке, не так ли? Итак, я могу создать экземпляр ec2 и обработать данные там?

хорошо - теоретически вы можете сделать это на своем ноутбуке, но это будет означать загрузку 200G и загрузку 200G (не считая накладных расходов и задержки по скорости)

Ваша интуиция, на мой взгляд, хороша, если бы EC2 в том же регионе был бы наиболее выполнимым, получая доступ ко всем данным почти локально

У Amazon так много разных решений и способов интеграции, что это немного запутанно.

у вас есть много возможных вариантов для разных вариантов использования, часто перекрывающихся, так что на самом деле это может выглядеть запутанно

...