Можно ли обрабатывать Pandas DataFrames с ~ 500 000 столбцами на персональном компьютере? - PullRequest
0 голосов
/ 08 декабря 2018

Я пытаюсь использовать алгоритм KMeans scikit-learn для кластеризации группы наборов на основе перекрытия.Примерно 500 000 потенциальных членов каждого набора (хотя каждый набор не слишком большой).

Насколько я понимаю, для использования реализации KMeans в sklearn мне нужно будет представлять каждый набор как 500 000-пространство с каждым столбцом, представляющим двоичное значение.

Это слишком большой размер для обработки на ПК.Есть ли более эффективный способ выполнить эту операцию?

1 Ответ

0 голосов
/ 08 декабря 2018

Я не на 100% ясен в вашей структуре данных, но если у вас есть массив из 500 тыс. Выборок x N наборов, который в основном (~ 95% +) разрежен, я бы не ожидал слишком много проблем.Даже если бы он был плотным, 500k x 50 float64s - это как ... 200 МБ?

Лучший вопрос будет: «Евклидово расстояние действительно хороший способ измерить расстояние между моими сетами», я думаю.

...