Модель кластеризации, как DBSCAAN, OPTICS, KMEANS - PullRequest
2 голосов
/ 05 марта 2020

Я сомневаюсь, можно ли после кластеризации с использованием какого-либо алгоритма сегментировать новые данные на основе изучения предыдущих данных

Ответы [ 2 ]

0 голосов
/ 06 марта 2020

Кластеризация - это неконтролируемый механизм, при котором количество кластеров и идентификация сегментов, которые должны быть кластеризованы, не известны системе.

Следовательно, вы можете получить усвоение модели который обучен кластеризации, классификации, идентификации или проверке и применяет это обучение в вашем случае кластеризации.

Если новые данные поступают из той же области обученных данных, скорее всего, в результате вы получите более точную кластеризацию. (Вам необходимо правильно выбрать методологию кластеризации на основе типа данных, который вы выбираете. Например, для кластеризации голоса Доминирующие множества и иерархическая кластеризация будут наиболее потенциальными кандидатами). Если новые данные принадлежат другому домену, то выбранная модель может дать сбой, поскольку она узнала, что функции соответствуют вашей области данных обучения.

0 голосов
/ 05 марта 2020

Проблема в том, что алгоритмы кластеризации - это алгоритмы обучения без контроля. Им не нужна зависимая переменная для прогнозирования классов. Они используются для поиска структур / сходств в точках данных. Что вы можете сделать, так это рассматривать кластерные данные как контролируемые данные.

Подход заключается в кластеризации и назначении меток в данных поезда. Обрабатывайте их как данные классификации нескольких классов, обучайте новую модель классификации нескольких классов, используя ваши данные, и проверяйте ее на тестовых данных.

Let train and test be the datasets.
clusters <- Clustering(train)
train[y] <- clusters
model <- Classification(train, train[y])
prediction <- model.predict(test)

Однако интересно, что KMeans в sklearn предоставляет метод подбора и прогнозирования. Таким образом, используя KMeans из sklearn, вы можете прогнозировать новые данные. Однако DBScan не имеет предсказания, что вполне очевидно из его рабочего механизма.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...