Количество основных компонентов в настройке параметров SVM по сравнению с окончательной оценкой - PullRequest
0 голосов
/ 20 апреля 2019

Я использую PCA, чтобы уменьшить размеры моих данных (50 образцов x 32767 элементов) перед передачей их в SVM.Я использую следующую схему перекрестной проверки для настройки параметров ядра SVM, см. Рисунок.Итак, для тестового набора у меня есть 5 образцов, и каждый сгиб 15 образцов для 3-кратного резюме.Поскольку PCA выполняется только для обучающих данных, это означает, что для каждого разделения число выборок, которые проходят PCA, составляет 30, а для окончательной оценки - 45. Поскольку PCA повторно настраивает максимум n-1 главных компонентов, где n - количество выборок, Iполучите 29 основных компонентов для каждого сплита и 44 для финального тренировочного набора.Мой вопрос заключается в том, что, когда я исследую влияние числа основных компонентов, используемых в классификации, скажем, я хочу использовать 5 компьютеров, использую ли я 5 компьютеров как в части настройки параметров (3 разделения), так и в окончательной оценке, илииспользовать 5 компьютеров для настройки параметров и полный набор компьютеров (44) для окончательной оценки?

cross-validation

Я спрашиваю, потому что я получаю лучшую точность при использовании 44 в окончательной оценке, но я не совсем понимаю, почему.Я чувствую, что если параметры были настроены с использованием 5 компьютеров, тогда больше компьютеров не должно иметь значения в окончательной точности.Но я также смущен, потому что компьютеры существенно различаются для каждого разделения, а также для окончательной оценки.То есть первые 5 компьютеров для разделения не совпадают с первыми 5 компьютерами другого разделения, и это не то же самое, что первые 5 компьютеров окончательного комплекта обучения.

Я тоже не понимаюКак на настройку параметров и окончательную оценку влияет количество выбранных ПК.

Существует ли стандартный способ сделать это?Если да, то не могли бы вы предоставить ссылку?Спасибо

...