Как сделать K-означает кластеризацию на наборе данных, полном строковых переменных в r - PullRequest
0 голосов
/ 31 мая 2018

Прямо сейчас у меня есть набор данных, который полон строковых переменных, но я хочу сделать кластерный проект для этого.После того как я применил as.factor () ко всем переменным, nbclust () все еще не мог работать, что я должен делать?

Ответы [ 2 ]

0 голосов
/ 02 июня 2018

Не используйте k-means для таких данных.

Вы не можете получить значимый статистический анализ только методом проб и ошибок.Потому что есть много способов получить результат, который выглядит хорошо, но совершенно необоснованно.

Прежде чем использовать какой-либо из этих подходов, вам необходимо понять , что он делает.В случае k-средних он минимизирует наименьшие квадраты, что, очевидно, имеет смысл только для непрерывных переменных.Они также должны вести себя линейно.Если у вас есть несколько переменных, они также должны иметь одинаковую величину.

Это не метод черного ящика.Если вы используете его плохо, вы просто получите мусор.

0 голосов
/ 31 мая 2018

K-означает, как правило, использует евклидовы расстояния (см., Например, https://stats.stackexchange.com/questions/81481/why-does-k-means-clustering-algorithm-use-only-euclidean-distance-metric), поэтому вы не можете напрямую "кластеризовать слова".

Если вы хотите группировать наблюдения, основанные на словах, вам необходимогенерировать числа (например, k-означает для кластеризации текста ) Например, если вы пытались кластеризовать профили клиентов для выполнения сегментации, вы могли бы подсчитать слова, представляющие их интересы в их профилях, а затем иметь один столбец на интереси подсчитать, сколько раз это слово или n-грамм появлялось в профиле, затем кластеризоваться на этой матрице чисел, или в кластеризованных документах генерировать матрицу терминальных документов (или матрицу терминов документа, или вхождение термина термина как k-означает кластеризацию по терминологической матрице сопутствующих явлений ) и использовать эти числа для кластеризации.

...