Я пытаюсь построить кластеры из метода K Means, тогда как набор данных состоит из миллиона записей с 60 измерениями.
Чтобы достичь 95% дисперсии, я уменьшил размерность до 35 компонентов, выполнив PCA для набора данных.Итак, теперь я должен построить кластеры K Means с 1 миллионом записей и найти выбросы.
matplotlib
требуется огромное количество времени для получения результатов в 2D и, кроме того, как нам построить многомерный набор данных в 2D?