Я читал о PCA в sklearn, особенно об отношениях между функциями и компонентами. Я особенно заинтересован в определении важности функций в отношении пары основных компонентов. Тем не менее, я нашел несколько постов, которые говорят разные вещи.
Например, в 3 ответах в в этом посте обсуждаются собственные векторы и нагрузки. В частности, упоминается , что pca.components_.T * np.sqrt(pca.explained_variance_)
показывает загрузку компонентов функций. Почему sqrt
используется здесь? И почему продукт?
Однако в этот ответ указано, что abs(pca.components_)
дает вам важность функции в каждом компоненте. Кажется, это противоречит тому, что указано выше, да? Этот пост в блоге также указывает, что pca.components_
- это загрузка компонентов каждой функции.
Кроме того, я не понимаю, как этот отвечает на вопрос: "I think what you call the "loadings" is the result of the projection for each sample into the vector space spanned by the components. Those can be obtained by calling pca.transform(X_train) after calling pca.fit(X_train)."
Но это не правильно: нагрузки относятся к коэффициенту каждого признака на главных компонентах, а не на образцах. Согласен?
Буду очень признателен за разъяснения здесь.