Махаланобисовское расстояние против евклидового расстояния в векторном квантовании - PullRequest
3 голосов
/ 24 февраля 2012

Я сделал Kmeans кластеризация в OpenCV с использованием C ++ и имеет 12 центров кластера (каждый в 200 измерениях).

Теперь у меня есть набор точек в 200 измерениях , и я пытаюсь найти ближайший кластер ( Векторное квантование ).

Какое расстояние предпочтительнее другого ( Расстояние Махаланобиса или Евклидово расстояние )? В настоящее время я использую евклидово расстояние.

Ответы [ 2 ]

4 голосов
/ 24 февраля 2012

Точка Андрея действительна. Я могу добавить общее утверждение:

Для расстояния Махаланобиса вы должны быть в состоянии правильно оценить ковариационную матрицу для каждого кластера. При 200 измерениях вы можете рассчитывать только на разумную оценку кластера ковариационных матриц - от нескольких сотен до тысяч точек данных. Добавьте к этому 12 кластеров, и вам легко понадобятся десятки тысяч точек данных, чтобы разумно использовать расстояние Махаланобиса.

Кроме того: попробуйте, как работает евклидово расстояние. Если результаты разумны, просто придерживайтесь этого, в противном случае попробуйте Mahalanobis.

Наконец, вы можете найти более знающих людей по этому предмету в stats stackexchange .

4 голосов
/ 24 февраля 2012

На это невозможно ответить, не зная контекста. Нет такой вещи как хорошая или плохая метрика, каждая из них больше подходит для определенного класса проблем.

...