Что представляет собой оценка по Байесовскому классификатору? - PullRequest
8 голосов
/ 04 февраля 2011

Я использую рубиновый классификатор gem , метод классификации которого возвращает оценки для данной строки, классифицированной по обученной модели.

Является ли оценка в процентах? Если это так, максимальная разница составляет 100 баллов?

Ответы [ 2 ]

5 голосов
/ 04 февраля 2011

Это логарифм вероятности. При большом обученном наборе фактические вероятности очень малы, поэтому логарифмы легче сравнивать. Теоретически, оценки будут варьироваться от бесконечно близко к нулю до отрицательной бесконечности. 10**score * 100.0 даст вам фактическую вероятность, которая действительно имеет максимальную разницу в 100.

3 голосов
/ 22 февраля 2011

На самом деле для расчета вероятности типичного наивного байесовского классификатора, где b - это основание, это b ^ оценка / (1 + b ^ оценка).Это обратный логит (http://en.wikipedia.org/wiki/Logit) Однако, учитывая предположения о независимости NBC, эти оценки имеют тенденцию быть слишком высокими или слишком низкими, и вероятности, рассчитанные таким образом, будут накапливаться на границах. Лучше рассчитывать оценки в удержанииустановить и выполнить логистическую регрессию точной (1 или 0) оценки, чтобы лучше понять связь между оценкой и вероятностью.

Из статьи Джейсона Ренни: 2.7. Наивные байесовские выходы часто являются чрезмерными текстовыми базами данных частоиметь от 10 000 до 100 000 различных словарных слов, документы часто содержат 100 или более терминов. Следовательно, есть отличная возможность для дублирования. Чтобы понять, насколько много дублирования, мы обучили наивную байесовскую модель MAP для 80% из 20 групп новостейДокументы. Мы создали p (cjd; D) (апостериорные) значения для оставшихся 20% данных и показываем статистику по maxc p (cjd; D) в таблице 2.3. Значения сильно раздуты. 60% тестовых документовназначается задняя часть 1 при округлениидо 9 десятичных цифр.В отличие от логистической регрессии, Наивный Байес не оптимизирован для получения разумных значений вероятности.Логистическая регрессия выполняет совместную оптимизацию линейных коэффициентов, сходясь к соответствующим значениям вероятности с достаточными данными обучения.Наивный Байес оптимизирует коэффициенты один за другим.Он дает реалистичные результаты только тогда, когда предположение о независимости остается верным.Когда функции включают в себя важную дублирующую информацию (как это обычно бывает с текстом), постеры, предоставленные Наивным Байесом, сильно преувеличены.

...