На самом деле это не sklearn
.Просто скопируйте ваши данные (в соответствии с порогом сходства) и возьмите уникальные точки данных в каждом классе.
Это кажется достаточно простым, верно?Ну, единственная причина, по которой это превращается в ответ вместо комментария, состоит в том, чтобы указать на следующую тонкую, но раздражающую точку:
Сходство до пороговой разницы не является переходным .Это означает, что вы либо имеете в виду плохо определенную (и, возможно, невозможную) цель, либо у вас будет зависимость от боли в шее от порядка точки в вашем наборе данных;две стороны одной и той же монеты.
В качестве примера, скажем, мы смотрим на значения одного столбца и решаем, что разница меньше 2 незначительна, поэтому такие точки следует считать «идентичными».Что вы делаете со следующими значениями для первых десяти точек данных?
0, 1, 2, 3, 4, 5, 6, 7, 8, 9
Каждая последовательная пара, так сказать, «идентична», но выочевидно, не хочу группировать их всех вместе!
Я надеюсь, что это имеет смысл для вас, и я надеюсь, что это всякая помощь.
Удачи!