K-средства против K-режимов? (кластеризация текста) - PullRequest
0 голосов
/ 02 ноября 2018

Я понимаю, что K-Means можно использовать для кластеризации документов путем векторизации и нахождения их значений TF-IDF. Когда / как мы решаем, какой из них (K-Means or K-modes) может дать лучшие результаты, кроме определения категориальных / непрерывных переменных? Действительно ли это дает лучшие результаты или это индивидуально для каждого случая?

Я провел кластеризацию KMeans с использованием tf-idf, и они, похоже, дают приличные результаты, но я не могу найти никакого материала, сравнивающего эти два, чтобы перейти в K-режимы. Кроме того, в интернете есть так много информации о k-means + tf-idf для кластеризации текста, но не так много о k-mode. Любая помощь приветствуется!

1 Ответ

0 голосов
/ 03 ноября 2018

K-режимы действительно применимы только для категориальных данных. Не для разреженных числовых данных, таких как набор слов или векторы tf-idf.

Рассмотрим режим: не дает ли он обычно нулевые векторы? Тогда все ваши кластерные средства исчезнут.

По моему опыту, k-means для текста также работает очень плохо, кроме ваших данных. Потому что он не может обрабатывать выбросы, а текстовые данные полны документов выбросов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...