не уверен, что если я задаю этот вопрос в правильном месте, но в любом случае ...
Я использую пакет sci-kit learn для уменьшения размерности двух разных наборов данных, один - большой набор данных с несколькими тысяча генов, а другой - это меньший набор данных, содержащий только 50 наиболее важных генов, идентифицированных как профессионалы в области, вокруг которой сосредоточены мои данные.
В основном почти со всеми методами уменьшения размерности я вижу, что меньший набор данных дает более высокую точность (как и следовало ожидать).
Однако всякий раз, когда я выполняю LDA (линейный дискриминационный анализ), я вижу противоположный эффект, когда больший набор данных имеет более высокую точность (более узкие кластеры, более высокая чистота и более высокая точность с использованием KNN).
Делать У вас, ребята, есть советы, как я могу проверить, что я не делаю ошибку, или способы выяснить, почему это происходит?
Спасибо:)