У меня есть набор данных, который представляет экземпляры из двоичного класса.Суть в том, что есть только примеры из положительного класса, а у меня нет ни одного из отрицательных.Или, скорее, я хочу извлечь те из негативов, которые ближе к позитивам.
Чтобы получить более конкретную информацию, скажем, у нас есть данные о людях, которые купили в нашем магазине и попросили карту лояльности на данный момент или позже по собственному желанию .Помимо вопросов конфиденциальности (это только пример), у нас есть различные атрибуты, такие как возраст, почтовый индекс и т. Д.
Другой набор клиентов, следуя нашему примеру, это клиенты, которые не обращались за картой.
Нам нужно найти подмножество тех, которые наиболее похожи на те, которые подали заявку на карту лояльности в первой группе, чтобы мы могли отправить им предложение подать заявку на программу лояльности.
Это не совсем проблема классификации, потому что мы пытаемся получить экземпляры из группы "негативов".
Это не совсем кластеризация, которая обычно не контролируется, потому что мы уже знаем кластер (карту лояльности).клиенты).
Я думал об использовании kNN.Но я на самом деле не знаю, какие у меня есть варианты.
Я также хотел бы знать, как, если возможно, этого можно достичь с помощью weka или другой библиотеки Java и нужно ли нормализовать все атрибуты.