основные компоненты СПС - PullRequest
1 голос
/ 13 мая 2019

Я сталкивался с этим вопросом в datacamp.com:
Ниже приведены три диаграммы рассеяния одного и того же облака точек. Каждый точечный график показывает различный набор осей (красным). На каком из графиков оси могут представлять главные компоненты облака точек?

Напомним, что основными компонентами являются направления, по которым изменяются данные?

Ответ: Участок 1 и 3

Мой вопрос: что означает этот вопрос? Почему график 2 не является частью ответа, поскольку ось может быть повернута, чтобы соответствовать облаку точек.

enter image description here

Ответы [ 2 ]

3 голосов
/ 13 мая 2019

Как предлагается в комментариях, это лучше подходит для перекрестной проверки или, возможно, math.stackexchange.

Теперь ответ интуитивно довольно прост.

Основные компоненты могут быть получены итерационным процессом, таким образом:

  1. Первый главный компонент эквивалентен линейной комбинации a_1 %*% X, которая максимизирует Var(a_1 %*% X) при условии t(a_1) %*% a_1 = 1
  2. Второй основной компонент эквивалентен линейной комбинации a_2 %*% X, которая максимизирует Var(a_2 %*% X) с учетом t(a_2) %*% a_2 = 1 и cov(a_1 %*% X, a_2 %*% X) = 0
  3. Третий - || -

Из этого определения обратите внимание, что var(a_1 %*% X) = var( - a_1 %*% X), и, следовательно, главный компонент определяется только до знака компонента.

Из этого определения мы можем видеть, что: 1. 1 и 3 эквивалентны, так как первая (самая длинная) линия находится в направлении, где точки наиболее распространены (показать наибольшую дисперсию) 2. 2-й график не может быть основным компонентом, поскольку направление не совпадает с направлением наибольшей дисперсии

Глава 8, стр. 430 (ish) в Прикладной многомерный статистический анализ содержит более подробное теоретическое объяснение.

2 голосов
/ 13 мая 2019

Как уже упоминалось @NelsonGon, это, вероятно, было бы лучше для CrossValidated ... но в любом случае:

Графики 1 и 3 верны, потому что их оси на самом деле являются теми, которые максимизируют дисперсию на показанной плоскости. Векторы можно перевернуть, так как знак собственных векторов в PCA произвольный (вы заметите, что красные векторы на графиках 1 и 3 расположены вдоль одинаковых осей, один из них просто «перевернут»). Векторы графика 2, однако, явно не идут вдоль осей, максимизируя распространение облака точек, поэтому ответ на пост, на который вы ссылаетесь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...