Трудность в поиске аномалий данных - PullRequest
0 голосов
/ 01 июня 2018

Я работаю над проектом аналитической статистики.Мои данные - это тысячи ежедневных транзакций, и по дням я хочу помечать транзакции при определенных сценариях.

Проблема заключается в том, что есть 5 параметров, по которым я группирую данные.

Сценарии, которые я отмечаю, всегда сравнивают текущую ежедневную транзакцию с большой недавней группой.Сценарий может быть, если цена в 3 раза больше, чем в среднем по группе, или если количество транзакций в этом месяце удвоилось.

Например:

У меня сегодня 1000 транзакций.Вот пять флагов, по которым я их сгруппировал:

1.Время (день / ночь)

2.Валюта (USD / EUR)

3.Гендер

4.Платная полная цена или нет

5.Страна

В этом примере 4 из 5 флагов являются двоичными, но в списке стран есть много других вариантов.

На самом деле в моем случае число групп, которые у меня больше шансов, должно быть ближе к 1000.

Так что если у меня есть 700 групп, с которыми я хочу сравнивать.Мне нужно запросить данные не менее 500 транзакций на группу.

Должен ли я указать для 700 случаев данные, которые мне нужны в моем запросе?

, где (a = 1 и b = 0 ... e = 10) или (a = 0 и b = 0 ... e = 30) или .... или (a = 0 и b = 1 ... e = 30) => 700 случаев.

Должен ли я запрашивать много данных, которые мне не нужны, и по-другому сопоставлять мои 1000 ежедневных транзакций, каждая с их группой?

Есть ли другой способ сделать это?

Приветствия

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...