Я провожу анализ PCA от 20 переменных и 1200 человек, главным образом, чтобы посмотреть на взаимосвязи переменных. Затем я выбрал только 5 переменных, так как они кажутся репрезентативными для разных групп переменных и двух первых ПК (2 первых ПК объяснили 90% дисперсии).
Мне было интересно, как я могу оценить дисперсию исходного набора данных (то есть с 20 переменными), которая объясняется моими 5 выбранными переменными? Другими словами, сколько информации я теряю, сохраняя только 5 переменных из 20?
Я использую R
пакет FactoMineR
, и я больше ищу практики, чем теоретической помощи.
Спасибо за вашу помощь