Я пытаюсь использовать алгоритм KMeans
scikit-learn для кластеризации группы наборов на основе перекрытия.Примерно 500 000 потенциальных членов каждого набора (хотя каждый набор не слишком большой).
Насколько я понимаю, для использования реализации KMeans
в sklearn мне нужно будет представлять каждый набор как 500 000-пространство с каждым столбцом, представляющим двоичное значение.
Это слишком большой размер для обработки на ПК.Есть ли более эффективный способ выполнить эту операцию?