У меня есть таблица MySQL
с именем transaction
, которая имеет 5 столбцов, id(int), from(int), to(int), value(float), time(datetime)
.
И мне нужно рассчитать накопительный пользователь (the number of unique "from")
для какого-то конкретного приемника ("to")
каждый день.
Например:
+-----+------+-----+-------+----------------------------+
| id | from | to | value | time |
+-----+------+-----+-------+----------------------------+
| 1 | 1 | 223 | 1 | 2019-01-01 01:11:30.000000 |
| 2 | 1 | 224 | 2 | 2019-01-01 21:37:30.000000 |
| 3 | 2 | 25 | 0.1 | 2019-01-02 03:05:30.000000 |
| 4 | 2 | 223 | 0.2 | 2019-01-02 13:26:30.000000 |
| 5 | 3 | 26 | 3 | 2019-01-02 19:29:30.000000 |
| 6 | 3 | 227 | 4 | 2019-01-03 21:37:30.000000 |
| 7 | 1 | 224 | 5 | 2019-01-05 22:03:30.000000 |
| 8 | 4 | 224 | 1 | 2019-01-05 23:48:30.000000 |
| 9 | 5 | 223 | 2 | 2019-01-06 05:41:30.000000 |
| 10 | 6 | 28 | 2 | 2019-01-06 20:19:30.000000 |
+-----+------+-----+-------+----------------------------+
А конкретный to
равен [223, 224, 227]
Тогда ожидаемый результат:
2019-01-01: 1 # [1]
2019-01-02: 3 # [1, 2, 3]
2019-01-03: 3 # [1, 2, 3]
2019-01-04: 3 # [1, 2, 3]
2019-01-05: 4 # [1, 2, 3, 4]
2019-01-05: 5 # [1, 2, 3, 4, 5]
Прямой путь использует SQL
SELECT COUNT(DISTINCT(`From`))
FROM `transaction`
FORCE INDEX (to_time_from)
WHERE `time` < '2019-01-0X'
AND `to` IN (223, 224, 227)
Но проблема в том, что таблица transaction
большая (1 миллион в день, около 2 лет), а список to
составляет около 1000
. Вышеуказанный SQL
очень медленный, хотя я создал индекс для [to, time, from]
и принудительно использовал его.
Кроме того, хотя ежедневная сумма транзакций достигает около 1 миллиона, ежедневный активный пользователь составляет всего около 10000. Поэтому я рассматриваю возможность хранения списка DAU в No-SQL
, например
2019-01-01: [1]
2019-01-02: [2, 3]
2019-01-03: [3]
2019-01-04: []
2019-01-05: [1, 4]
2019-01-05: [5]
И когда мне дают дату d
, я просто извлекаю весь список DAU не позднее d
и создаю объединение, чтобы получить накопительного пользователя. Что-то вроде: len(set([dau_list1]+[dau_list2]+[dau_list3]...))
Но я понятия не имею, какой No-SQL
использовать.
Redis
загрузит все в память, но эти данные мне нужны только при запросе.
MongoDB
- Кажется, мне нужно создать коллекцию для каждой даты, потому что мне нужно создать уникальный индекс для
from
. Я прав?
- Я знаю, что могу использовать поле массива и операцию
$addToSet
. Но это O(n)
, очень медленно.
Итак, как правильно это сделать?