Я использую spark stream (scala) и получаю записи звонков клиентов в колл-центр через kafka через каждые 20 минут. Эти записи преобразуются в формат данных rdd и более поздних, чтобы использовать spark sql. У меня есть бизнес-пример, когда я хочу определить всех клиентов, которые звонили более 3 раз за последние два часа.
Каков наилучший подход для этого? Должен ли я продолжать вставлять в таблицу кустов все записи, полученные в каждом пакете, и запускать отдельный скрипт, чтобы продолжать запрашивать, кто сделал 3 звонка за последние два часа, или есть еще один способ лучше использовать возможности искры в памяти?
Спасибо.