Принимая большое количество времени, пока работает K означает Python Spark - PullRequest
0 голосов
/ 19 октября 2018

У меня есть вектор nparray с 0 и 1 с 37k строками и 6k столбцами.Когда я пытаюсь запустить Kmeans Clustering в Pyspark, загрузка занимает почти вечность, и я не могу получить вывод.Есть ли способ уменьшить время обработки или другие хитрости для решения этой проблемы?

1 Ответ

0 голосов
/ 19 октября 2018

Я думаю, что у вас может быть слишком много столбцов, вы могли бы пройти курс размерности . Ссылка на Википедию

[...] Общая тема этих проблем заключается в том, что при увеличении размерности объем пространства увеличивается настолько быстро, что доступные данные становятся разреженными.Эта редкость проблематична для любого метода, который требует статистической значимости.Чтобы получить статистически достоверный и надежный результат, объем данных, необходимых для поддержки результата, часто растет экспоненциально с размерностью.[...]

Чтобы решить эту проблему, рассматривали ли вы сокращение столбцов, используя только соответствующие столбцы?Проверьте еще раз эту ссылку на Википедию

[...] Функция проекции преобразует данные в многомерном пространстве в пространство меньшего размера.Преобразование данных может быть линейным, как в анализе главных компонентов (PCA), но также существуют многие методы нелинейного уменьшения размерности.[...]

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...