Уточнение значения слов «загрузки» с использованием Sklearn - PullRequest
1 голос
/ 09 октября 2019

Я читал о PCA в sklearn, особенно об отношениях между функциями и компонентами. Я особенно заинтересован в определении важности функций в отношении пары основных компонентов. Тем не менее, я нашел несколько постов, которые говорят разные вещи.

Например, в 3 ответах в в этом посте обсуждаются собственные векторы и нагрузки. В частности, упоминается , что pca.components_.T * np.sqrt(pca.explained_variance_) показывает загрузку компонентов функций. Почему sqrt используется здесь? И почему продукт?

Однако в этот ответ указано, что abs(pca.components_) дает вам важность функции в каждом компоненте. Кажется, это противоречит тому, что указано выше, да? Этот пост в блоге также указывает, что pca.components_ - это загрузка компонентов каждой функции.

Кроме того, я не понимаю, как этот отвечает на вопрос: "I think what you call the "loadings" is the result of the projection for each sample into the vector space spanned by the components. Those can be obtained by calling pca.transform(X_train) after calling pca.fit(X_train)."Но это не правильно: нагрузки относятся к коэффициенту каждого признака на главных компонентах, а не на образцах. Согласен?

Буду очень признателен за разъяснения здесь.

...