Как использовать K-средства кластеризации для большего количества функций - PullRequest
0 голосов
/ 25 февраля 2019

Я новичок в машинном обучении, теперь я учусь кластеризации k-средних.У меня много сомнений по этому поводу.мой CSV-файл имеет Mall_Customers

    CustomerID  Genre   Age Annual Income (k$)  Spending Score (1-100)
0   1            Male   19      15                39
1   2            Male   21      15                81
2   3            Female 20      16                6
3   4            Female 23      16                77
4   5            Female 31      17                40

Я хочу выполнить k-средних для вышеуказанного CSV-файла, чтобы предсказать, кто тратит больше денег в торговом центре.Здесь используются такие функции, как AnnualIncome и Spendin Score.поэтому моя модель выдает результат в двух измерениях.Если предположить, что мне нужно работать с более чем 2-мя переменными, в это время моя модель переходит в более чем 2-мерное или нет?

1> Как выполнить кластеризацию k-средних для более чем 2 функций?2> Если предположить, что у меня есть 5 полей функции в моем CSV-файле, как уменьшить количество функций?

1 Ответ

0 голосов
/ 25 февраля 2019

Я отвечу на ваш вопрос в двух частях

  1. Если у вас более двух объектов, k означает, что кластеризация происходит в n-мерном пространстве, где n - количество объектов. Числоразмеры в векторе каждой выборки будут меняться, и нет необходимости менять алгоритм или подход.

  2. Если вы хотите уменьшить количество объектов для визуализации, вы можете сделать это, используяPCA (анализ основных компонентов).Это неконтролируемая техника уменьшения размерности. Вы можете прочитать больше об этом.

Для выполнения обоих этих задач вы можете использовать библиотеку python sklearn.

...