как найти значение k для k-средних? - PullRequest
0 голосов
/ 08 апреля 2019

Я использую k-means в наборе данных, включающем более чем 150k документов, но я не знаю, что такое хорошее значение k. Я попробовал метод локтя, чтобы найти его, но значение инерции не сильно меняется (я использую sklearn).

вот это chart of MSEs

1 Ответ

1 голос
/ 12 апреля 2019

Если метод локтя не дает четкого ответа, то, возможно, никакое количество кластеров не особенно хорошо. К-среднее может только моделировать сферические отношения, которые могут быть ограничивающими. Вы можете попробовать другие представления функций, например, что-то на основе Word Embeddings.

Для задачи группировки документов вы можете использовать подход к моделированию тем вместо кластеризации, такой как скрытое распределение Дирихле (LDA) или факторизация неотрицательной матрицы (NMF).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...