Насколько надежна кривая Колена при нахождении K в K-средних? - PullRequest
0 голосов
/ 26 сентября 2018

Итак, я пытался использовать кривую Колена, чтобы найти значение оптимального «K» (количество кластеров) в кластеризации K-средних.

Кластеризация была выполнена для средних векторов (используя Word2Vec) текстового столбца в моем наборе данных (1467 строк).Но, глядя на мои текстовые данные, я могу четко найти более 3 групп, в которые можно сгруппировать данные.

Я прочитал, что нужно иметь небольшое значение k при сохранении суммы квадратов ошибок (SSE)низкий.Может кто-нибудь сказать мне, насколько надежна кривая локтя?Также, если что-то мне не хватает.

Прикрепление кривой локтя для справки.Я также попытался построить до 70 кластеров, исследовательских. enter image description here.

enter image description here

1 Ответ

0 голосов
/ 27 сентября 2018

«Локоть» даже четко не определен.Итак, как это может быть надежно?

Вы можете "нормализовать" значения по ожидаемому падению от разделения данных на k кластеров, и это станет немного более читабельным.К сожалению, я забыл точное название этого. Калински и Харабаз (1974) критерий отношения дисперсии?Если я правильно помню название, это по сути измененная версия, которая делает намного более понятным.

...