К-значит кластеризованные данные: как маркировать вновь поступающие данные - PullRequest
0 голосов
/ 04 марта 2019

У меня есть набор данных с метками, которые были получены с помощью алгоритма кластеризации k-средних.Теперь есть некоторые данные (с той же структурой данных) из другого источника, и мне интересно, как наиболее разумно обозначить эти новые, но невидимые данные?Я думал о том, чтобы либо

  • вычислить расстояние до предыдущих центроидов k-средних и соответственно пометить данные до ближайших центроидов
  • запустить новый алгоритм (например, SVM) нановые данные с использованием старых данных в качестве обучающего набора

К сожалению, я не смог найти ничего об этой конкретной проблеме.Есть только несколько вопросов об общем использовании k-средних в качестве модели классификации:

Заранее спасибо.

Uli

1 Ответ

0 голосов
/ 05 марта 2019

Вам не нужна вещь SVM. Первый способ более удобен. Если вы используете sklearn https://scikit -learn.org / stable / modules / generate / sklearn.cluster.KMeans.html естьпример здесь. predict функция сделает вашу работу.

...