Я предполагаю, что есть категории из AZ, и есть много строк, которые принадлежат к той же категории.Алгоритм K-средних будет работать, как описано ниже.Из вашего вопроса не понятно, что такое мера сходства.Я обновлю свой ответ, как только получу больше ясности относительно цели кластеризации.
ОБНОВЛЕНИЕ: После того, как я снова посмотрел на данные и заметил комментарий от @ Anony-Mousse, я предполагаю, что вопрос: задан трикатегории A, B, C и их соответствующие значения и метки (идентификаторы) группируют их в соответствии с некоторой метрикой подобия (это может быть евклидово расстояние, косинусное расстояние или какое-либо другое).Я обновляю свой предыдущий ответ, чтобы соответствовать вышеупомянутым предположениям.
Анализирует данные и генерирует три числовых или горячо закодированных объекта, которые представляют значения для категорий A, B и C для каждого идентификатора.
K: ввод
Повтор до сходимости:
- Инициализировать 3-мерные кластерные центроиды от U1 до UK.
- Для каждогоЯ нашел бы наименьшую сумму евклидовых расстояний между значениями категории и центроидами скопления.Назначьте этот центроид кластера в качестве нового кластерного центра текущего идентификатора.
- Для каждого кластера пересчитайте его центроид, усредняя характеристики всех сэмплов (идентификаторов), назначенных ему.
Конвергенция может иметь место, когда центроиды кластеров не изменяются или когда каждый центроид изменяется меньше, чем небольшое значение, предоставленное в качестве входных данных.