Redshift или Афина будет хорошо работать для этого.
Redshift будет прост в настройке и будет стоить около 250 долларов в месяц для одного узла.вам нужно настроить таблицу красных смещений, чтобы получить разумную производительность.
AWS Athena может быть хорошим способом получить хорошую производительность по разумной цене
Простое решение Athena:
- Распакуйте ваш CSV-файл, разбейте его на куски размером около 10 МБ
- , загрузите его в корзину s3
- запустите сканер склеивания aws с этим контейнером
- направьте рабочий стол вашей таблицы натаблица athena, которая сейчас там.
Допустим, ваш gzip-файл имеет размер 25 ГБ, каждый запрос будет стоить вам $ 0,13 с очень небольшими другими затратами.
Если это слишком много (посколькуесли вы хотите выполнить много запросов), то вы можете сократить расходы и повысить производительность путем
- , разбивая ваши данные на папки s3
- , конвертируя ваши данные в формат паркета