Модель данных для интерактивного анализа кликов - PullRequest
0 голосов
/ 24 октября 2019

Мы хотим предоставить данные из наших журналов просмотров страниц нашим внутренним пользователям для интерактивного анализа кликов. Я полагаю, что пользователи могут указать начальный путь URL-адреса и какие URL-адреса включать плюс пользовательские фильтры, а затем мы будем запрашивать и представлять результаты, возможно, с помощью диаграмм Санки в Superset.

Я могу представить несколько моделей данных /системы для этого, но хотели бы услышать от других, которые, возможно, уже внедрили решение.

Вот некоторые из моих первоначальных мыслей, наше количество просмотров страниц в настоящее время ~ 1b, хотя это на протяжении ряда летпоэтому мы должны иметь возможность сократить размер на ~ 2 или 3 без ущерба для значения.

  1. Отношение: Преобразовать в: USER |FROM_URL |TO_URL |USER_ATTRIBUTES в той же таблице? в некоторых базах данных / хранилище данных AWS (Redshift | PostGRES | Presto) - будет ли Redshift достаточно быстро возвращаться к рассматриваемому размеру данных? -PostGRES может позволить мне индексировать, может ли он дешево обрабатывать такой большой объем данных? -Presto кажется хорошим решением, позволяющим мне красиво разделить по дате, но, вероятно, мне потребуется денормализовать все мои пользовательские атрибуты во всех моих просмотрах страниц, определенно не нужно было бы делать это в Redshift

  2. Что-то еще? У AWS есть база данных графиков: я никогда не использовал базу данных графиков для интерактивной аналитики, хорошо ли это подходит для этого варианта использования?

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...