У меня есть таблица посещений пользователей, разделенная по часам (ггггммддч) с миллионами записей
Столбцы:
visit_ts timestamp,
domain_name string,
page_url string,
user_id
Я хочу построить таблицу недавности и частоты, с которой каждый пользователь посещает домен. Таблица должна обновляться ежедневно один раз с частотой посещений за последние 7 и 30 дней, когда это был первый (срок жизни) и последний визит домена.
Как мне реализовать это с помощью Spark2.0? учитывая, что новая партия записей отправляется каждый день, а размер партии очень большой.
user_id: User_1, domain_name: google.com, Last7: 10, Last30: 45, FirstVisit: 2015-04-02, LastVisit: 2019-01-01
user_id: User_1, domain_name: facebook.com, Last7: 20, Last30: 30, FirstVisit: 2016-06-18, LastVisit: 2018-06-31