Question

У меня есть набор данных с метками, которые были получены с помощью алгоритма кластеризации k-средних.Теперь есть некоторые данные (с той же структурой данных) из другого источника, и мне интересно, как наиболее разумно обозначить эти новые, но невидимые данные?Я думал о том, чтобы либо

вычислить расстояние до предыдущих центроидов k-средних и соответственно пометить данные до ближайших центроидов
запустить новый алгоритм (например, SVM) нановые данные с использованием старых данных в качестве обучающего набора

К сожалению, я не смог найти ничего об этой конкретной проблеме.Есть только несколько вопросов об общем использовании k-средних в качестве модели классификации:

Заранее спасибо.

Uli

Burak yazicı · Answer 1 · 05 марта 2019

Вам не нужна вещь SVM. Первый способ более удобен. Если вы используете sklearn https://scikit -learn.org / stable / modules / generate / sklearn.cluster.KMeans.html естьпример здесь. predict функция сделает вашу работу.

К-значит кластеризованные данные: как маркировать вновь поступающие данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

К-значит кластеризованные данные: как маркировать вновь поступающие данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы