Как интерпретировать оценки кластеризации Python? - PullRequest
0 голосов
/ 15 ноября 2018

Я пытаюсь использовать агломеративную кластеризацию для кластеризации некоторых данных, но я не знаю, какое количество кластеров идеально.Вот мои результаты: Graph shows lot of Measuring Values in percentage on y axis and the number of Clusters on x axis

База данных состоит из 65 классов, которые необходимо распознать.Значение Джини = 0,265.

  1. Что должно быть выбрано для количества кластеров?Может быть, так же, как количество классов?
  2. Что означает точка пересечения полноты и однородности и v меры?
  3. Что означает максимум в скорректированном балле взаимной информации?

1 Ответ

0 голосов
/ 17 ноября 2018
  1. Не используйте эти меры для выбора k. Потому что они сравнивают с известным решением. Если у вас есть известное решение, зачем вместо этого выбирать приближение?

  2. Возможно, просто совпадение. Но вы, возможно, захотите изучить уравнения, может быть, они согласны на этом этапе.

  3. Для AMI, NMI, ARI и т. Д. Максимальное значение равно k с наибольшим соглашением с существующим маркированным решением.

...