Раскрутите парк экземпляров ec2, скажем, 5, включите автоматическое масштабирование.
Я не уверен, что вам нужно автоматическое масштабирование.Зачем?скажем, вы запускаете «большой» запрос, который занимает много времени, и процессор.
автоматическое масштабирование запустит больше экземпляров, но как он запустит «дробную часть» запроса на новом компьютере?
все машины должны быть готовы перед выполнением запроса.просто имейте это в виду.Или другими словами: только машины, которые доступны сейчас будут обрабатывать запрос.
Копировать файл из s3 в EFS как таблицы Hadoop.
Там нет никаких проблем с этой идеей.просто имейте в виду, что вы можете хранить данные в EFS.
, если EFS слишком дорогая для вас, пожалуйста, проверьте опции для обеспечения EBS-magnet с Raid 0.Вы получите высокую скорость при минимальных затратах.
В остальном все в порядке, и это один из способов сделать интерактивную аналитику "по требованию".
Пожалуйста, ознакомьтесь с AWS Athena .
Это сервис, позволяющий выполнять запросы к объектам s3.
Вы можете использовать Json и даже Parquet (что гораздо эффективнее!)
Эта услуга может быть достаточно для вашей необходимости.
Удачи!