Сколько основных компонентов я должен выбрать для PCA? - PullRequest
1 голос
/ 07 марта 2019

У меня есть датафрейм с несколькими категориальными и числовыми функциями.К этому я присоединил мой BoW (CountVectorizer) текстового столбца, что привело к более чем 56 000 функций.Поэтому я планирую сделать PCA для уменьшения количества функций.

Я думаю, что выбор правильного числа основных компонентов здесь крайне важен, но я не понимаю, сколько n_components следует рассмотреть здесь?

1 Ответ

3 голосов
/ 07 марта 2019

Вы можете построить график с верхними k компонентами и дисперсией k компонентов. Выберите k на основе дисперсии, содержащейся в этих компонентах. Идеальным будет 95% или выше.

...