Question

В настоящее время я использую PCA для распознавания рукописных цифр для базы данных MNIST (каждая цифра имеет около 1000 наблюдений и 784 функций). Единственное, что меня смущает, так это то, что точность наивысшая, когда у него 40 компьютеров. Если количество компьютеров увеличивается с этой точки, точность начинает непрерывно падать.

Из моего понимания PCA я подумал, что чем больше компонентов у меня есть, тем лучше я могу описать набор данных. Почему точность становится меньше, если у меня слишком много компьютеров?

Shreyas Fadnavis · Answer 1 · 20 марта 2019

Чтобы определить оптимальное количество компонентов, вам необходимо построить график elbow curve https://en.wikipedia.org/wiki/Elbow_method_(clustering)
Идея PCA состоит в том, чтобы уменьшить размерностьданные путем нахождения основных компонентов.

Наконец, я не думаю, что PCA может перегрузить данные, поскольку это не алгоритм обучения / подбора.

Вы простопопытка спроецировать данные на основе собственных векторов для захвата большей части дисперсии вдоль оси.

Это видео должно помочь: https://www.youtube.com/watch?v=_UVHneBUBW0

Почему слишком много основных компонентов для классификации рукописных цифр приводит к снижению точности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему слишком много основных компонентов для классификации рукописных цифр приводит к снижению точности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы