Как вычислить точность и вспомнить при кластеризации? - PullRequest
7 голосов
/ 18 марта 2009

Я действительно запутался, как вычислить точность и вспомнить в приложениях кластеризации.

У меня следующая ситуация:

Учитывая два набора A и B. Используя уникальный ключ для каждого элемента, я могу определить, какие из элементов A и B совпадают. Я хочу кластеризовать эти элементы на основе функций (конечно, не используя уникальный ключ).

Я делаю кластеризацию, но я не уверен, как вычислить точность и вызвать. Формулы согласно статье «Расширенные графики производительности для поиска кластера» (http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf):

p = точность = соответствующие извлеченные элементы / извлеченные элементы и r = отзыв = соответствующие найденные элементы / соответствующие элементы

Я действительно не понимаю, какие элементы подпадают под какую категорию.

До сих пор я проверял в кластерах, сколько у меня совпадающих пар (используя уникальный ключ). Это уже одно из точности или вспомнить? И если да, то какой это и как я могу вычислить другой?

Обновление: я только что нашел другую статью под названием «F-мера для оценки неконтролируемой кластеризации с неопределенным числом кластеров» в http://mtg.upf.edu/files/publications/unsuperf.pdf.

Ответы [ 7 ]

8 голосов
/ 30 апреля 2009

Есть несколько других показателей достоверности кластера, которые я использовал в некоторых исследованиях, которые я проводил при доступе к методам кластеризации. В тех случаях, когда у вас есть набор данных, помеченный классами (контролируемая кластеризация), вы можете использовать точность и отзыв, как упоминалось выше, или чистоту и энтропию.

Чистота кластера = количество вхождений наиболее часто встречающегося класса / размер кластера (это должно быть высоким)

Энтропия кластера = мера рассеянных классов с кластером (это должно быть низким)

В тех случаях, когда у вас нет меток классов (неконтролируемая кластеризация), внутреннее и внешнее сходство являются хорошими мерами.

Внутрикластерное сходство для одного кластера = среднее косинусное сходство всех пар в кластере (должно быть высоким)

Межкластерное сходство для одного кластера = средний косинус сим всех элементов в одном кластере по сравнению со всеми элементами в каждом другом кластере (это должно быть низким)

В этой статье содержатся некоторые хорошие описания всех четырех из этих мер. http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

Хорошая связь с неконтролируемой F-мерой, я сейчас разбираюсь с этим.

8 голосов
/ 23 марта 2009

Я думаю, вы найдете в Википедии полезную статью о точности и отзыве . Короче говоря:

Точность = истинные позитивы / (истинные позитивы + ложные позитивы)

Напомним = истинные позитивы / (истинные позитивы + ложные негативы)

2 голосов
/ 30 марта 2009

Что я делаю из этой проблемы:

Один из наборов A и B является "положительным". Предположим, что A положительно

Учитывая, что для элемента A в кластере

  1. соответствующий элемент B находится в том же кластере. это настоящий позитив
  2. соответствующий элемент B не находится в том же кластере. это ложный минус
  3. несоответствующий элемент B находится в том же кластере. это ложное срабатывание
  4. несоответствующий элемент B не находится в том же кластере. является истинным отрицанием.

Тогда просто используйте

Точность = истинные позитивы / (истинные позитивы + ложные позитивы)

Напомним = истинные позитивы / (истинные позитивы + ложные негативы) как упомянуто кем-то

1 голос
/ 01 августа 2012

Проблема точности и напоминания состоит в том, что они обычно требуют от вас некоторого представления о том, что такое «истинные» ярлыки, тогда как во многих случаях (и в вашем описании) вы не знаете ярлыки, но вы знаете раздел для сравнения. Я бы предложил скорректированный индекс Рэнда , возможно:

http://en.wikipedia.org/wiki/Rand_index

1 голос
/ 30 марта 2009

См. «Введение в поиск информации», глава 18 (жирная кластеризация), для способов оценки алгоритмов кластеризации. http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

Этот раздел книги также может оказаться полезным, поскольку в нем обсуждаются такие метрики, как точность и отзыв: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

1 голос
/ 18 марта 2009

Я думаю, что есть проблема с вашими определениями.

Точность и отзыв пригодны для задачи классификации, которая в основном представляет собой задачи с двумя кластерами. Если бы вы группировались на что-то вроде «хороших предметов» (= извлеченные предметы) и «плохих предметов» (= невосстановленные предметы), тогда ваше определение имело бы смысл.

В вашем случае вы рассчитали процент правильной кластеризации из всех элементов, что похоже на точность, но не совсем, потому что, как я сказал, определения не применяются.

0 голосов
/ 26 июня 2012

Если вы рассматриваете один из наборов, скажем, A, как золотая кластеризация , а другой набор (B) - как вывод вашего процесса кластеризации, (точные) значения точности и возврата можно оценить как:

Точность = (Количество элементов, общих для A и B) / (Количество элементов в B)

Напомним = (Количество элементов, общих для A и B) / (Количество элементов в A)

Из этих стандартных F можно также оценить.

...