Как сделать тест ANOVA для сравнения производительности различных алгоритмов кластеризации - PullRequest
0 голосов
/ 19 мая 2018

Я пытаюсь сравнить производительность различных результатов алгоритма кластеризации (k-means ++ и иерархическая агломерационная кластеризация), примененных к одному и тому же набору данных.У меня всего 4 различных результата (2 из них имеют предварительную обработку KPCA, 2 из них - нет), поэтому я выбрал ANOVA, чтобы определить, какой из них дал лучший результат.

Однако я не знаюкакой вклад дать тест ANOVA.Может кто-нибудь предложить, какие данные я должен взять из результатов алгоритма, чтобы обеспечить ввод?(Я использую язык Python и Sci-Kit выучить)

1 Ответ

0 голосов
/ 20 мая 2018

Использование ANOVA здесь, скорее всего, плохая идея.

Поскольку k-means пытается минимизировать дисперсию кластера, это будет загрязнять дисперсионный анализ.

https://stats.stackexchange.com/questions/116294/appropriateness-of-anova-after-k-means-cluster-analysis

...