Это может быть немного перечитано, так как другие уже связали статью вики о фактическом определении номера кластера, но я нашел эту статью слишком плотной, поэтому я решил дать краткий, интуитивно понятный ответ:
В принципе, не существует универсально «правильного» ответа для количества кластеров в наборе данных - чем меньше кластеров, тем меньше длина описания, но выше дисперсия, и во всех нетривиальных наборах данных дисперсия не исчезнет полностью, если у вас не будет гауссиана для каждой точки, что делает кластеризацию бесполезной (это случай более общего явления, известного как «бесполезность беспристрастного обучения»: ученик, который не делает априорных предположений относительно идентичность целевой концепции не имеет рациональной основы для классификации любых невидимых случаев).
Таким образом, вам нужно выбрать некоторую особенность вашего набора данных, чтобы максимизировать количество кластеров (см. Статью в вики об индуктивном смещении для некоторых примеров функций)
В других печальных новостях, во всех таких случаях определение количества кластеров известно как NP-hard , поэтому лучшее, что вы можете ожидать, это хороший эвристический подход.