Question

Я действительно запутался, как вычислить точность и вспомнить в приложениях кластеризации.

У меня следующая ситуация:

Учитывая два набора A и B. Используя уникальный ключ для каждого элемента, я могу определить, какие из элементов A и B совпадают. Я хочу кластеризовать эти элементы на основе функций (конечно, не используя уникальный ключ).

Я делаю кластеризацию, но я не уверен, как вычислить точность и вызвать. Формулы согласно статье «Расширенные графики производительности для поиска кластера» (http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf):

p = точность = соответствующие извлеченные элементы / извлеченные элементы и r = отзыв = соответствующие найденные элементы / соответствующие элементы

Я действительно не понимаю, какие элементы подпадают под какую категорию.

До сих пор я проверял в кластерах, сколько у меня совпадающих пар (используя уникальный ключ). Это уже одно из точности или вспомнить? И если да, то какой это и как я могу вычислить другой?

Обновление: я только что нашел другую статью под названием «F-мера для оценки неконтролируемой кластеризации с неопределенным числом кластеров» в http://mtg.upf.edu/files/publications/unsuperf.pdf.

Miguel A. Friginal · Answer 1 · 30 апреля 2009

Есть несколько других показателей достоверности кластера, которые я использовал в некоторых исследованиях, которые я проводил при доступе к методам кластеризации. В тех случаях, когда у вас есть набор данных, помеченный классами (контролируемая кластеризация), вы можете использовать точность и отзыв, как упоминалось выше, или чистоту и энтропию.

Чистота кластера = количество вхождений наиболее часто встречающегося класса / размер кластера (это должно быть высоким)

Энтропия кластера = мера рассеянных классов с кластером (это должно быть низким)

В тех случаях, когда у вас нет меток классов (неконтролируемая кластеризация), внутреннее и внешнее сходство являются хорошими мерами.

Внутрикластерное сходство для одного кластера = среднее косинусное сходство всех пар в кластере (должно быть высоким)

Межкластерное сходство для одного кластера = средний косинус сим всех элементов в одном кластере по сравнению со всеми элементами в каждом другом кластере (это должно быть низким)

В этой статье содержатся некоторые хорошие описания всех четырех из этих мер. http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

Хорошая связь с неконтролируемой F-мерой, я сейчас разбираюсь с этим.

theycallmemorty · Answer 2 · 23 марта 2009

Я думаю, вы найдете в Википедии полезную статью о точности и отзыве . Короче говоря:

Точность = истинные позитивы / (истинные позитивы + ложные позитивы)

Напомним = истинные позитивы / (истинные позитивы + ложные негативы)

Midhat · Answer 3 · 30 марта 2009

Что я делаю из этой проблемы:

Один из наборов A и B является "положительным". Предположим, что A положительно

Учитывая, что для элемента A в кластере

соответствующий элемент B находится в том же кластере. это настоящий позитив
соответствующий элемент B не находится в том же кластере. это ложный минус
несоответствующий элемент B находится в том же кластере. это ложное срабатывание
несоответствующий элемент B не находится в том же кластере. является истинным отрицанием.

Тогда просто используйте

Точность = истинные позитивы / (истинные позитивы + ложные позитивы)

Напомним = истинные позитивы / (истинные позитивы + ложные негативы) как упомянуто кем-то

Dan Stowell · Answer 4 · 01 августа 2012

Проблема точности и напоминания состоит в том, что они обычно требуют от вас некоторого представления о том, что такое «истинные» ярлыки, тогда как во многих случаях (и в вашем описании) вы не знаете ярлыки, но вы знаете раздел для сравнения. Я бы предложил скорректированный индекс Рэнда , возможно:

http://en.wikipedia.org/wiki/Rand_index

SquareCog · Answer 5 · 30 марта 2009

См. «Введение в поиск информации», глава 18 (жирная кластеризация), для способов оценки алгоритмов кластеризации. http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

Этот раздел книги также может оказаться полезным, поскольку в нем обсуждаются такие метрики, как точность и отзыв: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

daphshez · Answer 6 · 18 марта 2009

Я думаю, что есть проблема с вашими определениями.

Точность и отзыв пригодны для задачи классификации, которая в основном представляет собой задачи с двумя кластерами. Если бы вы группировались на что-то вроде «хороших предметов» (= извлеченные предметы) и «плохих предметов» (= невосстановленные предметы), тогда ваше определение имело бы смысл.

В вашем случае вы рассчитали процент правильной кластеризации из всех элементов, что похоже на точность, но не совсем, потому что, как я сказал, определения не применяются.

user1483031 · Answer 7 · 26 июня 2012

Если вы рассматриваете один из наборов, скажем, A, как золотая кластеризация , а другой набор (B) - как вывод вашего процесса кластеризации, (точные) значения точности и возврата можно оценить как:

Точность = (Количество элементов, общих для A и B) / (Количество элементов в B)

Напомним = (Количество элементов, общих для A и B) / (Количество элементов в A)

Из этих стандартных F можно также оценить.

Как вычислить точность и вспомнить при кластеризации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как вычислить точность и вспомнить при кластеризации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы