За последние несколько недель я написал конвейер, который собирает все данные о потоках кликов, которые транслируются с веб-сайта.Конвейер использует AWS следующим образом: S3> EC2 (для преобразований)> Афина (сканирует чистый разделенный s3).Новые данные поступают в конвейер каждые 24 часа, и это прекрасно работает - мои данные о потоках кликов легко запрашиваются.Однако теперь мне нужно добавить несколько дополнительных столбцов, т. Е. Время, потраченное на каждую страницу.Это может быть достигнуто путем сортировки по идентификатору пользователя, отметке времени, а затем по разнице между столбцом отметки времени в row_n1 и row_n2.Итак, мои вопросы:
1) Как я могу сделать это с помощью SQL-запроса?Я изо всех сил пытаюсь заставить его работать, но я думаю, что, как только я сделаю это, я могу запускать этот запрос каждые 24 часа для запуска новых данных о потоках кликов, поступающих в Афину.
2) Это разумный способдобавить дополнительные столбцы или новые сводные таблицы?например, создайте запрос, который будет запускаться каждые 24 часа для новых данных, чтобы добавить его в новую таблицу.
В идеале, я не хочу касаться какого-либо исходного кода, который был написан для выполнения "основного" ETLКонвейер
для справки моя таблица выглядит примерно так (с учетом нового времени столбца, проведенного на странице):
|userID |eventNum |Категория |Время |...... |timeSpentOnPage |'103-1023' '3' 'Просмотр' '12 -10-2019 ... '3s
Спасибо за любые указания / советы, которые могут быть предоставлены.