У меня есть набор из 70 входных переменных, для которых мне нужно выполнить PCA.Согласно моему пониманию, центрирующие данные таковы, что для каждой входной переменной среднее значение равно 0
, а дисперсия 1
, что необходимо для применения PCA.
Мне трудно понять, нужно ли мне выполнять стандартное масштабирование preprocessing.StandardScaler()
, прежде чем передать мой набор данных в PCA
или PCA
, функция в sklearn сделает это самостоятельно.
Если последнее имеет место, то независимо от того, применяю я или не применяю preprocessing.StandardScaler()
explained_variance_ratio_
должно быть одинаковым.
Но результаты разные, поэтому я считаю preprocessing.StandardScaler()
необходимо перед применением PCA
.Это правда?