Для фона я собираю журналы использования API (запрос, ответ, задержка, userId и т. Д. c) для приложения. Типичный день накапливает 200-300 миллионов записей. Эти данные в настоящее время хранятся на s3 в формате parquet, и я использую AWS Athena для специальных запросов c. Я хотел бы перейти к созданию веб-панели инструментов, которая отображала бы показатели для каждого клиента; пример запроса - это объем запросов по клиентам по часам за последние 6 часов. Мне нужны такие подробные данные об использовании только за предыдущие 30 дней.
В идеале я продолжаю использовать экосистему AWS для этого решения. Я пытаюсь определить общее направление. Может ли Redshift эффективно вычислять эти типы запросов к необработанным данным журнала на лету, в течение 1 секунды или около того, чтобы их можно было использовать в Интернете? Есть лучший инструмент? Или мне следует посмотреть на запуск ETL и операций типа объединения для генерации этих показателей, заполнения другой таблицы (возможно, с красным смещением), а затем использовать ее для обслуживания панели мониторинга?
добро пожаловать - спасибо.