Я пытаюсь определить ошибки, возникающие в учетной записи клиента, используя алгоритм apriori. Итак, у меня есть таблица ошибок, например:
error_id error_code cust_id
1 M015 100
2 M020 101
3 M016 100
4 M019 100
5 M015 102
...
И я хочу установить, какие ошибки следует ожидать при наличии M015.
(например, M015 -> ??)
Проблема в том, что таблица ошибок содержит сотни тысяч позиций, и существуют сотни возможных кодов ошибок. Итак, я запускаю свой алгоритм с очень низкой достоверностью, чтобы получить как можно больше возможных правил? Или мне сузить базу данных ошибок, включив в нее только «транзакции», которые включают в себя интересующую меня ошибку?
(Например, в этом примере, если я ищу правила M015, должен ли я ограничить таблицу транзакций только позициями для cust_id 100 и 102?)