У меня есть набор данных с двумя основными характеристиками сопоставимого масштаба. I sh, чтобы разделить точки данных на 4 кластера, чтобы иметь полную сегментацию по атрибуту 1, при этом минимизируя дисперсию в атрибуте 2.
Например: при построении атрибута 1 на оси x и атрибут 2 на оси Y, результирующие кластеры должны представлять вертикальные срезы в наборе данных, которые имеют горизонтальный размер, чтобы минимизировать отклонение в атрибуте 2.
Единственный подход, который я до сих пор придумал состоит в том, чтобы использовать кластеризацию k-средних и масштабировать атрибут 1, чтобы он был доминирующим фактором в функции расстояния.
Есть ли другие предложения по подходящим неконтролируемым алгоритмам обучения / кластеризации?