Проблема максимизации ожидания - Как найти оптимальное количество гауссиан в данных - PullRequest
4 голосов
/ 29 июня 2011

Plot of 2 - Dimensional data

Существует ли какой-либо алгоритм или методика определения количества гауссиан, которые должны быть определены в наборе данных перед применением алгоритма максимизации ожидания?

Например, на приведенном выше графике двумерных данных, когда я применяю алгоритм максимизации ожидания, я пытаюсь подогнать к данным 4 гауссиана и получу следующий результат.

enter image description here

Но что, если бы я не знал количество гауссиан в данных? Есть ли какой-нибудь алгоритм или трюк, которые я мог бы применить, чтобы я мог выяснить эту деталь?

Ответы [ 3 ]

8 голосов
/ 30 июня 2011

Это может быть немного перечитано, так как другие уже связали статью вики о фактическом определении номера кластера, но я нашел эту статью слишком плотной, поэтому я решил дать краткий, интуитивно понятный ответ:

В принципе, не существует универсально «правильного» ответа для количества кластеров в наборе данных - чем меньше кластеров, тем меньше длина описания, но выше дисперсия, и во всех нетривиальных наборах данных дисперсия не исчезнет полностью, если у вас не будет гауссиана для каждой точки, что делает кластеризацию бесполезной (это случай более общего явления, известного как «бесполезность беспристрастного обучения»: ученик, который не делает априорных предположений относительно идентичность целевой концепции не имеет рациональной основы для классификации любых невидимых случаев).

Таким образом, вам нужно выбрать некоторую особенность вашего набора данных, чтобы максимизировать количество кластеров (см. Статью в вики об индуктивном смещении для некоторых примеров функций)

В других печальных новостях, во всех таких случаях определение количества кластеров известно как NP-hard , поэтому лучшее, что вы можете ожидать, это хороший эвристический подход.

1 голос
/ 14 августа 2011
  1. Непараметрическая байесовская кластеризация сейчас привлекает большое внимание.Вам не нужно указывать кластеры.
  2. Автокласс - это алгоритм, который автоматически идентифицирует количество кластеров из смеси.
1 голос
/ 29 июня 2011

В Википедии есть статья на эту тему. Я не слишком знаком с предметом, но мне сказали, что алгоритмы кластеризации, которые не требуют указания количества кластеров, вместо этого нуждаются в некоторой информации о плотности кластеров или некотором минимальном расстоянии между кластерами.

...