Существует ли какой-либо контролируемый метод кластеризации, позволяющий находить аномальные кластеры на постоянно поступающих данных? - PullRequest
0 голосов
/ 25 апреля 2020

У меня очень несбалансированный набор данных с двоичными метками. Метки 1 даются, если точки данных образуют кластеры больше 10 и помечаются человеком как мошеннический кластер. Итак, не все кластеры больше 10 будут помечены как 1. Есть ли какой-либо метод кластеризации, который позволяет находить кластеры по постоянно поступающим данным? Итак, если я запускаю кластеризацию на первых 1 миллионах строк и получаю 10000 кластеров, а я получаю еще 1 миллион строк с 500 независимыми кластерами, и 1000 отдельных точек данных могут присоединиться к существующим 10000 кластерам. Смогу ли я присоединить новые входящие точки данных к существующим кластерам и идентифицировать их с помощью любого контролируемого подхода?

...