Как построить большой набор данных с несколькими измерениями в Python? - PullRequest
0 голосов
/ 13 сентября 2018

Я пытаюсь построить кластеры из метода K Means, тогда как набор данных состоит из миллиона записей с 60 измерениями.

Чтобы достичь 95% дисперсии, я уменьшил размерность до 35 компонентов, выполнив PCA для набора данных.Итак, теперь я должен построить кластеры K Means с 1 миллионом записей и найти выбросы.

matplotlib требуется огромное количество времени для получения результатов в 2D и, кроме того, как нам построить многомерный набор данных в 2D?

1 Ответ

0 голосов
/ 13 сентября 2018

Для набора данных с таким количеством измерений я бы предложил использовать визуализацию t-SNE - например, sklearn.manifold.TSNE

Также для целей визуализации я предлагаю объединитьТочки данных, которые находятся в непосредственной близости, поэтому ограничивают количество входных данных для алгоритма построения графика (таким образом, вы можете значительно уменьшить сложность для этапа обработки, который создает график).

...