У меня есть набор данных с метками, которые были получены с помощью алгоритма кластеризации k-средних.Теперь есть некоторые данные (с той же структурой данных) из другого источника, и мне интересно, как наиболее разумно обозначить эти новые, но невидимые данные?Я думал о том, чтобы либо
- вычислить расстояние до предыдущих центроидов k-средних и соответственно пометить данные до ближайших центроидов
- запустить новый алгоритм (например, SVM) нановые данные с использованием старых данных в качестве обучающего набора
К сожалению, я не смог найти ничего об этой конкретной проблеме.Есть только несколько вопросов об общем использовании k-средних в качестве модели классификации:
Заранее спасибо.
Uli