Я понимаю, что K-Means можно использовать для кластеризации документов путем векторизации и нахождения их значений TF-IDF
. Когда / как мы решаем, какой из них (K-Means or K-modes
) может дать лучшие результаты, кроме определения категориальных / непрерывных переменных? Действительно ли это дает лучшие результаты или это индивидуально для каждого случая?
Я провел кластеризацию KMeans с использованием tf-idf, и они, похоже, дают приличные результаты, но я не могу найти никакого материала, сравнивающего эти два, чтобы перейти в K-режимы. Кроме того, в интернете есть так много информации о k-means + tf-idf для кластеризации текста, но не так много о k-mode. Любая помощь приветствуется!