Как разбросать график PCA с более чем 2 компонентами: уменьшение размерности - PullRequest
0 голосов
/ 21 октября 2019

Я новичок в данных без надзора, нуждаюсь в предложениях и помощи.

У меня есть большие данные без надзора, и после очистки и подготовки у меня осталась форма (13518, 44). Я применил StandardScaler к данным. Затем я применил PCA с 2 компонентами. Я нашел коэффициент вариации PCA - (pca.explained_variance_ratio_) = только 0,3507. Когда я проверил с помощью PCA (n_components = 0,90), я получил 23 pca.n_components_. Затем я выбираю n_components как 20, что дает мне 87% дисперсии, поскольку мне нужно работать с более чем 85% данных. Затем я вычислил значение "объясненное_вариант_рацио_" для 20 компонентов и проверил график. enter image description here

Я вижу, что первые три компонента PCA имеют наибольшую дисперсию. Могу ли я снова применить PCA с n_components = 3 на моем PCA df с 20 компонентами? Кроме того, я обнаружил, что с PCA компонент = 2 легко визуализировать, нанеся на график рассеяния. Что будет лучшим способом визуализации сюжета с более чем 2-мя компонентами PCA. Если я работаю с 3 компонентами PCA, то как я могу сделать визуализацию кластеров на диаграмме рассеяния со всеми 3 PCA?

Я буду выполнять KMeans на компонентах PCA для кластеризации, а затем анализировать каждый кластер. Пожалуйста, поделитесь своими мыслями и помогите с вышеуказанным запросом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...