Позиционирование многомерных данных в 2-мерном пространстве (с PCA) - PullRequest
0 голосов
/ 14 мая 2019

У меня есть многомерные данные. (11 столбцов - атрибуты, 150K строк - количество данных). Например, это немного разреженные данные, что означает, что один элемент имеет числовые значения, такие как (0, 0, 6,5, 0, 0, 7,5, 0, 0, 4,5, 0, 0) => Таким образом, каждый элемент имеет приблизительно 2 ~ 5 ненулевых значений атрибута ...

Я хочу визуализировать эти данные в двухмерных пространствах. Так что мои шаги такие.

1) Процесс PCA => пусть каждый элемент получает координаты x, y. 2) Кластеризация => DBSCAN, K-означает, ... что-то в этом роде.

Я новичок в PCA, но я слышал, что пропорция дисперсии важна, но у меня ниже следующие пропорции. (Я получил это с программированием R)

Важность компонентов:

                          PC1    PC2    PC3    PC4     PC5     PC6     PC7    PC8     PC9    PC10
Standard deviation     1.4173 1.1836 1.1141 1.0108 0.99109 0.95231 0.89091 0.8456 0.71542 0.64610
Proportion of Variance 0.2009 0.1401 0.1241 0.1022 0.09823 0.09069 0.07937 0.0715 0.05118 0.04174
Cumulative Proportion  0.2009 0.3410 0.4651 0.5673 0.66551 0.75620 0.83558 0.9071 0.95826 1.00000

(ПК1: 0.2009, ПК2: 0,1401)

Итак, когда я преобразую данные в 2-мерное пространство, насколько я понял, я думаю, что я должен проецировать данные в координаты (PC1, PC2), которые имеют только 0,3410 (кумулятивное соотношение)

Не слишком ли ненадежен 0,3410 (немного меньшее значение, чем я ожидал) для такого позиционирования данных? Кроме того, есть ли другой способ проецировать эти данные в 2D-пространство, которое имеет более кумулятивную пропорцию?

Извините за плохое знание английского языка. Я изо всех сил пытался выяснить это сам, но это трудно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...