Как предлагается в комментариях, это лучше подходит для перекрестной проверки или, возможно, math.stackexchange.
Теперь ответ интуитивно довольно прост.
Основные компоненты могут быть получены итерационным процессом, таким образом:
- Первый главный компонент эквивалентен линейной комбинации
a_1 %*% X
, которая максимизирует Var(a_1 %*% X)
при условии t(a_1) %*% a_1 = 1
- Второй основной компонент эквивалентен линейной комбинации
a_2 %*% X
, которая максимизирует Var(a_2 %*% X)
с учетом t(a_2) %*% a_2 = 1
и cov(a_1 %*% X, a_2 %*% X) = 0
- Третий - || -
Из этого определения обратите внимание, что var(a_1 %*% X) = var( - a_1 %*% X)
, и, следовательно, главный компонент определяется только до знака компонента.
Из этого определения мы можем видеть, что:
1. 1 и 3 эквивалентны, так как первая (самая длинная) линия находится в направлении, где точки наиболее распространены (показать наибольшую дисперсию)
2. 2-й график не может быть основным компонентом, поскольку направление не совпадает с направлением наибольшей дисперсии
Глава 8, стр. 430 (ish) в Прикладной многомерный статистический анализ содержит более подробное теоретическое объяснение.