Более плотная кластеризация на большом наборе данных? - PullRequest
0 голосов
/ 02 марта 2020

не уверен, что если я задаю этот вопрос в правильном месте, но в любом случае ...

Я использую пакет sci-kit learn для уменьшения размерности двух разных наборов данных, один - большой набор данных с несколькими тысяча генов, а другой - это меньший набор данных, содержащий только 50 наиболее важных генов, идентифицированных как профессионалы в области, вокруг которой сосредоточены мои данные.

В основном почти со всеми методами уменьшения размерности я вижу, что меньший набор данных дает более высокую точность (как и следовало ожидать).

Однако всякий раз, когда я выполняю LDA (линейный дискриминационный анализ), я вижу противоположный эффект, когда больший набор данных имеет более высокую точность (более узкие кластеры, более высокая чистота и более высокая точность с использованием KNN).

Делать У вас, ребята, есть советы, как я могу проверить, что я не делаю ошибку, или способы выяснить, почему это происходит?

Спасибо:)

...