Как правильно рассчитать накопительного пользователя на каждый день? - PullRequest
0 голосов
/ 07 января 2019

У меня есть таблица MySQL с именем transaction, которая имеет 5 столбцов, id(int), from(int), to(int), value(float), time(datetime).

И мне нужно рассчитать накопительный пользователь (the number of unique "from") для какого-то конкретного приемника ("to") каждый день.

Например:

+-----+------+-----+-------+----------------------------+
| id  | from | to  | value | time                       |
+-----+------+-----+-------+----------------------------+
| 1   |  1   | 223 |     1 | 2019-01-01 01:11:30.000000 |
| 2   |  1   | 224 |     2 | 2019-01-01 21:37:30.000000 |
| 3   |  2   |  25 |   0.1 | 2019-01-02 03:05:30.000000 |
| 4   |  2   | 223 |   0.2 | 2019-01-02 13:26:30.000000 |
| 5   |  3   |  26 |     3 | 2019-01-02 19:29:30.000000 |
| 6   |  3   | 227 |     4 | 2019-01-03 21:37:30.000000 |
| 7   |  1   | 224 |     5 | 2019-01-05 22:03:30.000000 |
| 8   |  4   | 224 |     1 | 2019-01-05 23:48:30.000000 |
| 9   |  5   | 223 |     2 | 2019-01-06 05:41:30.000000 |
| 10  |  6   |  28 |     2 | 2019-01-06 20:19:30.000000 |
+-----+------+-----+-------+----------------------------+

А конкретный to равен [223, 224, 227]

Тогда ожидаемый результат:

2019-01-01: 1 # [1]
2019-01-02: 3 # [1, 2, 3]
2019-01-03: 3 # [1, 2, 3]
2019-01-04: 3 # [1, 2, 3]
2019-01-05: 4 # [1, 2, 3, 4]
2019-01-05: 5 # [1, 2, 3, 4, 5]

Прямой путь использует SQL

SELECT COUNT(DISTINCT(`From`))
FROM `transaction`
FORCE INDEX (to_time_from)
WHERE `time` < '2019-01-0X'
AND `to` IN (223, 224, 227)

Но проблема в том, что таблица transaction большая (1 миллион в день, около 2 лет), а список to составляет около 1000. Вышеуказанный SQL очень медленный, хотя я создал индекс для [to, time, from] и принудительно использовал его.

Кроме того, хотя ежедневная сумма транзакций достигает около 1 миллиона, ежедневный активный пользователь составляет всего около 10000. Поэтому я рассматриваю возможность хранения списка DAU в No-SQL, например

2019-01-01: [1]
2019-01-02: [2, 3]
2019-01-03: [3]
2019-01-04: []
2019-01-05: [1, 4]
2019-01-05: [5]

И когда мне дают дату d, я просто извлекаю весь список DAU не позднее d и создаю объединение, чтобы получить накопительного пользователя. Что-то вроде: len(set([dau_list1]+[dau_list2]+[dau_list3]...))

Но я понятия не имею, какой No-SQL использовать.

  1. Redis загрузит все в память, но эти данные мне нужны только при запросе.
  2. MongoDB
    1. Кажется, мне нужно создать коллекцию для каждой даты, потому что мне нужно создать уникальный индекс для from. Я прав?
    2. Я знаю, что могу использовать поле массива и операцию $addToSet. Но это O(n), очень медленно.

Итак, как правильно это сделать?

1 Ответ

0 голосов
/ 30 января 2019

В MySQL используйте что-то вроде (без redis, без MongoDB):

SELECT  DATE(`time`),
        COUNT(*),
        GROUP_CONCAT(`from`)
    FROM  tbl
    WHERE  `to` IN (...)
    GROUP BY  1;    -- shorthand for "DATE(time)"

INDEX(`to`, `from`, `time`)  -- if applying to entire table
INDEX(`to`, `time`, `from`)  -- if you have `AND time ...`

Плюс немного форматирования. (Такое можно сделать с грязным CONCAT или оставить для кода приложения.)

Поскольку это тоже вопрос «масштабирования», возможно, вам нужна «Сводная таблица», которая ежедневно обновляется с записями за предыдущий день, тем самым делая запросы намного быстрее.

CREATE TABLE Daily (
    `day` DATE NOT NULL,
    `from` ... NOT NULL,
    `to` ... NOT NULL,
    `ct` SMALLINT UNSIGNED NOT NULL,
    PRIMARY KEY(`to`, `day`, `from`)
) ENGINE=InnoDB;

и запрос становится

SELECT  `day`,
        SUM(ct),
        GROUP_CONCAT(DISTINCT `from`)
    FROM Daily
    WHERE  `to` IN (...)`
    GROUP BY `day`;

(Это может помочь вам предоставить CREATE TABLE и INSERTs для построения тестового примера из.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...