PCA - это метод выделения признаков, который используется, чтобы избежать проблемы коллинеарности. Например, если несколько переменных сильно коррелированы из-за того, что «они измеряют одну и ту же вещь», то PCA может извлечь меру «этой вещи» (технически: компонент), которая называется оценкой. Ваш набор данных, скажем, из 100 измеренных переменных может сократить, скажем, до 10 значимых компонентов. Затем вы можете использовать баллы, которые ваши тестируемые получили по этим 10 компонентам, например, для многомерной регрессии, кластерного анализа или анализа дискриминанта. Это приведет к более достоверным результатам, чем выполнение анализа непосредственно по 100 переменным.
Таким образом, процедура состоит в том, чтобы отсортировать собственные значения (и -векторы) по размеру, определить количество значимых компонентов p (например, по графическому экрану), установить матрицу проекции F (собственные векторы, соответствующие наибольшим q собственным значениям в столбцах) и умножить его на матрицу данных D . Это даст вам матрицу баллов C (измерение n раз q , с n номером теста лиц), которые вы можете использовать в качестве входных данных для любого метода, который хотите использовать следующим.