Как рассчитать частоту в Кассандре - PullRequest
0 голосов
/ 16 октября 2018

У меня есть таблица Кассандры с миллионами строк, как показано ниже.

Столбец раздела: идентификатор_центра и дата

Столбец кластера: идентификатор_идеозаписи, идентификатор_сессии

 owner_id | date       | video_id | session_id                           | viewer_id
---------+------------+----------+--------------------------------------+--------------------------------------
  601590 | 2018-09-24 |   606816 | 0769ce70-bfc4-11e8-b753-a3c9ebf616e5 | c19ac510-9a35-11e8-9b4f-d79b67cf2efe
  601590 | 2018-09-24 |   606816 | 0af06b70-c038-11e8-ba96-ef1af2a222e5 | 0dfdc7f0-c037-11e8-bb05-8d4b0b9097e8
  601590 | 2018-09-24 |   606816 | 0bb97020-bfdd-11e8-bf24-dff4b25dd64e | ab4a1730-bfdc-11e8-8026-ddbc4c7d64f2
  601590 | 2018-09-24 |   606816 | 0dfdc7f0-c037-11e8-bb05-8d4b0b9097e8 | 0dfdc7f0-c037-11e8-bb05-8d4b0b9097e8
  601590 | 2018-09-24 |   606816 | 155dc510-bfdb-11e8-bace-516ebe0ca984 | 778f35d0-bfda-11e8-8a1e-1f00dd90d859
  601590 | 2018-09-24 |   606816 | 25378a20-bfdb-11e8-a28b-7de4597a9df5 | 778f35d0-bfda-11e8-8a1e-1f00dd90d859
  601590 | 2018-09-24 |   606816 | 2fc21170-bfba-11e8-9929-d17143803579 | 2fc21170-bfba-11e8-9929-d17143803579
  601590 | 2018-09-24 |   606816 | 3c287eb0-bfdb-11e8-b0ef-6d0d9c68d2f9 | 778f35d0-bfda-11e8-8a1e-1f00dd90d859
  601590 | 2018-09-24 |   606816 | 4265f5c0-c038-11e8-b060-552d6bdcb552 | 0dfdc7f0-c037-11e8-bb05-8d4b0b9097e8
  601590 | 2018-09-24 |   606816 | 49aa9820-bfdb-11e8-bb57-4f24d17d68df | 778f35d0-bfda-11e8-8a1e-1f00dd90d859

Я хочурассчитать частоту повторного просмотра на основе viewer_id с учетом owner_id, date and video_id

Например, сколько раз зритель просматривал видео, например: зритель 778f35d0-bfda-11e8-8a1e-1f00dd90d859 просматривал 4 раза.

Вывод должен выглядеть примерно так:

Number of views | frequency
----------------|-----------
        1       |     3
        3       |     1
        4       |     1

, а затем нужно найти частоту без указания даты.

1 Ответ

0 голосов
/ 16 октября 2018

Вы можете создать специальное задание (или какую-то пакетную обработку), чтобы сгенерировать таблицу, обеспечивающую актуальность информации при периодических запусках, или вы можете создать UDA для ее генерации.

Я думаю, с тех порЕсли вы сузите его с помощью ключа раздела и первой части кластеризации, вы можете использовать UDA и генерировать его по запросу (дороже, но в режиме реального времени, чем работа с искрой).Это предполагает, что в ((ownere_id, date), video_id) не будет десятков тысяч записей.Если будет, то лучше использовать искру или какой-нибудь механизм массовой обработки.

...