При проведении PCA (анализ основных компонентов), насколько «похожими / совместимыми» должны быть данные? - PullRequest
0 голосов
/ 15 апреля 2020

Я пытаюсь понять совместимость данных при запуске PCA на SPSS или R. У меня есть набор данных, касающийся информации о вине из Португалии, и я знаю, что некоторые атрибуты несопоставимы, такие как pH, алкоголь и рейтинг качества, например.

enter image description here

Если я нормализую эти данные для R, будет ли это совместимо с PCA? То, чего я пытаюсь достичь, - это понимание того, какие качества делают качество более высоким (хотя это должен быть PCA). Прошу прощения, если этот вопрос глуп, я изучаю аналитику данных, и из-за этой ситуации с вирусами короны занятия не проводятся, и мне все еще нужно предоставить CA, который я не знаю, с чего начать. Спасибо!

1 Ответ

0 голосов
/ 01 мая 2020

В SPSS FACTOR вы можете выполнить PCA по корреляции или ковариационной матрице. Если вы используете ковариационную матрицу, то переменные с большими диапазонами будут доминировать над решением. Если вы используете корреляционную матрицу (по умолчанию), то каждая переменная будет нормализована к одной и той же дисперсии, что приведет к другому решению, в котором переменные с большими исходными масштабами не обязательно будут доминировать в решении.

...