Почему слишком много основных компонентов для классификации рукописных цифр приводит к снижению точности - PullRequest
1 голос
/ 20 марта 2019

В настоящее время я использую PCA для распознавания рукописных цифр для базы данных MNIST (каждая цифра имеет около 1000 наблюдений и 784 функций). Единственное, что меня смущает, так это то, что точность наивысшая, когда у него 40 компьютеров. Если количество компьютеров увеличивается с этой точки, точность начинает непрерывно падать.

Из моего понимания PCA я подумал, что чем больше компонентов у меня есть, тем лучше я могу описать набор данных. Почему точность становится меньше, если у меня слишком много компьютеров?

1 Ответ

0 голосов
/ 20 марта 2019
  • Чтобы определить оптимальное количество компонентов, вам необходимо построить график elbow curve https://en.wikipedia.org/wiki/Elbow_method_(clustering)

  • Идея PCA состоит в том, чтобы уменьшить размерностьданные путем нахождения основных компонентов.

Наконец, я не думаю, что PCA может перегрузить данные, поскольку это не алгоритм обучения / подбора.

Вы простопопытка спроецировать данные на основе собственных векторов для захвата большей части дисперсии вдоль оси.

Это видео должно помочь: https://www.youtube.com/watch?v=_UVHneBUBW0

...