У меня есть многомерные данные. (11 столбцов - атрибуты, 150K строк - количество данных). Например, это немного разреженные данные, что означает, что один элемент имеет числовые значения, такие как (0, 0, 6,5, 0, 0, 7,5, 0, 0, 4,5, 0, 0) => Таким образом, каждый элемент имеет приблизительно 2 ~ 5 ненулевых значений атрибута ...
Я хочу визуализировать эти данные в двухмерных пространствах. Так что мои шаги такие.
1) Процесс PCA => пусть каждый элемент получает координаты x, y.
2) Кластеризация => DBSCAN, K-означает, ... что-то в этом роде.
Я новичок в PCA, но я слышал, что пропорция дисперсии важна, но у меня ниже следующие пропорции. (Я получил это с программированием R)
Важность компонентов:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10
Standard deviation 1.4173 1.1836 1.1141 1.0108 0.99109 0.95231 0.89091 0.8456 0.71542 0.64610
Proportion of Variance 0.2009 0.1401 0.1241 0.1022 0.09823 0.09069 0.07937 0.0715 0.05118 0.04174
Cumulative Proportion 0.2009 0.3410 0.4651 0.5673 0.66551 0.75620 0.83558 0.9071 0.95826 1.00000
(ПК1: 0.2009, ПК2: 0,1401)
Итак, когда я преобразую данные в 2-мерное пространство, насколько я понял, я думаю, что я должен проецировать данные в координаты (PC1, PC2), которые имеют только 0,3410 (кумулятивное соотношение)
Не слишком ли ненадежен 0,3410 (немного меньшее значение, чем я ожидал) для такого позиционирования данных? Кроме того, есть ли другой способ проецировать эти данные в 2D-пространство, которое имеет более кумулятивную пропорцию?
Извините за плохое знание английского языка. Я изо всех сил пытался выяснить это сам, но это трудно.