Я работаю с небольшим помеченным набором данных, 30 выборками и 29000 функциями. Удивительно, но используя KernelPCA, сохранив только 5 основных компонентов, которые объясняют только 40% дисперсии моих данных, подход кластеризации без контроля K-Means работает очень хорошо.
Есть ли способ найти или восстановить исходный набор функций или подмножество, которые вносятся в преобразованные основные компоненты KernelPCA?
Поскольку размерность данных действительно велика (29000), я хотел идентифицировать только те функции, которые являются детерминированными для разделения классов. Я уже пробовал линейные PCA, LDA и TSNE. Ни один из них не работает хорошо на моем наборе данных.
KernelPCA прекрасно работает с набором данных, но более неясен для меня.
Или я должен применить подходы выбора функций для этой задачи?
Спасибо за ваше время и внимание :) 1005 *