Анализ производительности алгоритмов кластеризации - PullRequest
1 голос
/ 13 марта 2012

Мне дали 2 набора данных, и я хочу выполнить кластерный анализ для наборов с использованием KNIME.

Как только я завершу кластеризацию, я хочу провести сравнение производительности двух разных алгоритмов кластеризации.

Что касается анализа производительности алгоритмов кластеризации, будет ли это мерой времени (сложность времени алгоритма и время, затрачиваемое на кластеризацию данных и т. Д.) Или достоверностью выходных данных кластеров? (или оба)

Есть ли какой-то другой взгляд, чтобы определить производительность (или отсутствие) алгоритма кластеризации?

Заранее большое спасибо,

  • T

Ответы [ 4 ]

2 голосов
/ 14 марта 2012

Это во многом зависит от того, какие данные у вас есть.

Распространенным способом измерения производительности является использование существующих («внешних») меток (хотя это будет более целесообразно для классификации, чем для кластеризации).).Для этого можно использовать около двух десятков мер.

При использовании «внутренней» меры качества убедитесь, что она не зависит от алгоритмов.Например, k-means оптимизирует такую ​​меру и всегда будет наилучшим при оценке по этой мере.

0 голосов
/ 02 февраля 2019

Существует несколько эталонов для оценки алгоритмов кластеризации с внешними показателями качества (точность) и внутренними показателями (некоторые внутренние статистические данные о сформированных кластерах):

Выбор соответствующего эталонного теста зависит от типа алгоритма кластеризации (жесткая или мягкая кластеризация), вида (попарные отношения, приписанные наборы данных или смешанные) и размера данных кластеризации, необходимыхметрики оценки и допустимый объем контроля. Clubmark описывает критерии оценки в деталях.

Clubmark разработан для полностью автоматической параллельной оценки многих алгоритмов кластеризации (обработка входных данных, заданных парными отношениями).) во многих больших наборах данных (миллионы и миллиарды элементов кластеризации) и оцениваются в основном по метрикам точности отслеживание потребления ресурсов (время обработки и выполнения, пиковое потребление резидентной памяти и т. д.).

Нодля пары алгоритмов на нескольких наборах данных подходит даже ручная оценка.

0 голосов
/ 15 июня 2012

Простой подход к внешним методам, в которых есть основополагающая истина, заключается в использовании метрики расстояния между кластеризациями;наземная истина просто считается кластеризацией.Двумя хорошими мерами, которые следует использовать, являются «Вариация информации» Мейлы и, по моему скромному мнению, разделенная дистанция соединения, также обсуждаемая Мейлой.Я не рекомендую индекс Миркина или индекс Рэнда - я написал больше об этом здесь, на stackexchange .

Эти метрики могут быть разделены на две составные части, каждая из которых представляет расстояниеодин из кластеров к крупнейшему общему субкластеру.Стоит рассмотреть обе части;если доля истинного основания (для общей подгруппы) очень мала, это означает, что проверенная кластеризация близка к сверхскоплению;если другая часть мала, это означает, что тестируемая кластеризация близка к общему подкластеру и, следовательно, близка к подкластеризации основной истины.В обоих случаях можно сказать, что кластеризация совместима с основной истиной.Для получения дополнительной информации см. Ссылку выше.

0 голосов
/ 15 июня 2012

Существует две категории методов оценки кластеризации, и выбор зависит от того, доступна ли основополагающая истина.Первая категория - внешние методы, которые требуют существования основной истины, а другая категория - внутренние методы.В общем, внешние методы пытаются присвоить кластеру оценку, учитывая основную правду, тогда как внутренние методы оценивают кластеризацию, проверяя, насколько хорошо кластеры разделены и насколько они компактны.

Для внешних методов (помните, что вынеобходимо иметь доступное основание) один из вариантов - использовать точность BCubed и вызывать метрики.Показатели точности и отзыва BCubed отличаются от традиционной точности и напоминания в том смысле, что кластеризация является неконтролируемой техникой обучения, и поэтому мы заранее не знаем меток кластеров.По этой причине метрики BCubed оценивают точность и отзыв для каждого объекта в кластеризации на заданном наборе данных в соответствии с основной истиной.Точность примера является показателем того, сколько других примеров в том же кластере относятся к той же категории, что и пример.Отзыв примера отражает, сколько примеров одной категории назначено одному кластеру.Наконец, мы можем объединить эти две метрики в одну, используя метрику F2.

Источники:

  1. Концепции и методы интеллектуального анализа данных от Jiawei Han, Micheline, Kamber и Jian Pei
  2. http://www.cs.utsa.edu/~qitian/seminar/Spring11/03_11_11/IR2009.pdf
  3. Мой собственный опыт оценки производительности кластеризации
...