для построения модели машинного обучения с использованием также AWS. Полагаю, мне следует перенести данные в корзину S3.
Имхо хорошая идея. Действительно, S3 - лучший вариант для сохранения данных и возможности их повторного использования (в отличие от sqs). Инструменты AWS (sagemaker, ml) могут напрямую использовать контент, хранящийся в s3. Большинство систем машинного обучения могут читать файлы, где вы можете легко скопировать файлы из s3 или смонтировать корзину как файловую систему (не мой любимый вариант, но возможный)
И хотя это просто, когда вы имеете дело с небольшими наборами данных, я не уверен, что лучший способ справиться с большими наборами.
Это зависит от того, какие данные у вас есть, как вы хотите хранить и обрабатывать файлы данных.
Если вы планируете иметь файл для каждого сообщения sqs, я бы предложил создать лямбда-функцию (при условии, что вы можете прочитать и сохранить сообщение достаточно быстро).
Если вы хотите объединить и / или объединить исходные сообщения, или обработка сообщения займет слишком много времени, вы можете написать сценарий для чтения и обработки данных на сервере.
Нет способа, чтобы я мог сделать это локально на моем ноутбуке, не так ли? Итак, я могу создать экземпляр ec2 и обработать данные там?
хорошо - теоретически вы можете сделать это на своем ноутбуке, но это будет означать загрузку 200G и загрузку 200G (не считая накладных расходов и задержки по скорости)
Ваша интуиция, на мой взгляд, хороша, если бы EC2 в том же регионе был бы наиболее выполнимым, получая доступ ко всем данным почти локально
У Amazon так много разных решений и способов интеграции, что это немного запутанно.
у вас есть много возможных вариантов для разных вариантов использования, часто перекрывающихся, так что на самом деле это может выглядеть запутанно