Рассчитать актуальность пользователя и частоту посещений с Spark - PullRequest
0 голосов
/ 03 апреля 2019

У меня есть таблица посещений пользователей, разделенная по часам (ггггммддч) с миллионами записей

Столбцы:

visit_ts timestamp, 
domain_name string,
page_url string, 
user_id

Я хочу построить таблицу недавности и частоты, с которой каждый пользователь посещает домен. Таблица должна обновляться ежедневно один раз с частотой посещений за последние 7 и 30 дней, когда это был первый (срок жизни) и последний визит домена.

Как мне реализовать это с помощью Spark2.0? учитывая, что новая партия записей отправляется каждый день, а размер партии очень большой.

user_id: User_1, domain_name: google.com, Last7: 10, Last30: 45, FirstVisit: 2015-04-02, LastVisit: 2019-01-01
user_id: User_1, domain_name: facebook.com, Last7: 20, Last30: 30, FirstVisit: 2016-06-18, LastVisit: 2018-06-31
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...