Как выбрать частоту контролируемого или активного обучения в дедупликации? - PullRequest
1 голос
/ 27 мая 2020

Я заметил, что точность кластера снижается со временем при дедупликации. У меня есть помеченный набор данных о мошеннических бенефициарах, и я использую mark_pairs для непрерывного контролируемого обучения. Мне сложно определить частоту переобучения модели. Какую структуру вы используете, чтобы выбрать подходящее время для удаления существующего учебного файла? Могут ли 100+ меток (для набора данных из 300000 строк) с использованием активного / контролируемого обучения привести к отсутствию обобщения или чем больше, тем лучше? Можно ли использовать ложные положительные отзывы для игнорирования определенных типов точек данных?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...