Ну, универсального способа выбора функций нет; это полностью зависит от набора данных и некоторых имеющихся сведений о наборе данных. Я приведу несколько примеров, которые могут быть полезны.
Поскольку вы спросили о PCA, изначально он разделяет весь набор данных на два набора, в которых есть дисперсии. С другой стороны, ICA (Независимый анализ компонентов) может извлекать несколько функций одновременно. Посмотрите на в этом примере ,
В этом примере мы смешиваем три независимых сигнала и пытаемся разделить их с помощью ICA и PCA. В этом случае ICA делает это лучше, чем PCA. В общем, если вы выполните поиск по Blind Souce Separation (BSS), вы можете найти больше информации об этом. Кроме того, в этом примере мы знаем независимые компоненты, поэтому разделение выполняется легко. В общем, мы не знаем количество компонентов. Следовательно, вам, возможно, придется предположить, основываясь на некоторой предварительной информации о наборе данных. Кроме того, вы можете использовать LDA (линейный дискриминантный анализ), чтобы уменьшить количество функций.
После того, как вы извлечете компоненты P C, используя любой из методов, мы можем визуализировать это следующим образом. Если предположить, что эти извлеченные компоненты являются случайными величинами, то есть x, y, z
Подробнее о вы можете обратиться к этому первоисточнику , где я взял примерно две цифры.
Возвращаясь к вашему предложению,
imp_feature[j]=sum_i (abs(loading_score[i,j])*explained_variance[i]
Я бы не рекомендовал этот способ по следующим причинам: abs(loading_score[i,j])
когда мы получим абсолютные значения, вы можете потерять положительные или отрицательные корреляции рассматриваемых функции. explained_variance[i]
можно использовать для нахождения корреляции между функциями, но умножение не имеет никакого смысла.
Изменить: В PCA каждый компонент имеет объясненную дисперсию. Объясненная дисперсия - это соотношение между дисперсией отдельных компонентов и общей дисперсией (суммой всех дисперсий отдельных компонентов). Значимость характеристики может быть измерена величиной объясненной дисперсии.
В общем, то, что я хочу сказать, выбор функций полностью зависит от набора данных и значимости функций. PCA - это всего лишь одна из техник. Frist разбирается в свойствах объектов и набора данных. Затем попробуйте извлечь функции. Надеюсь это поможет. Если вы можете предоставить нам точный пример, мы можем предоставить больше информации.