Вам интересно, подходит ли байесовский классификатор? - PullRequest
8 голосов
/ 02 февраля 2011

Мне интересно, имеет ли смысл байесовский классификатор для приложения, в котором одна и та же фраза "подается холодным" (например) является "хорошей", когда ассоциируются некоторые вещи (пиво, газированная вода), но "плохой", когда она связана с другими вещами(стейк, пицца, гамбургер)?

Что мне интересно, так это то, что если учить классификатор Байеса, который ("холодный пиво" и "холодный газированный" "хороши") отменяет обучение тому, что "стейк подается холодным""и" бургер подается холодным "-" плохо ").

Или, может быть, Байеса (правильно) обучают, что" холодный завтрак "может быть" хорошим "или" плохим "в зависимости от того, с чем он связан?

Я нашел много полезной информации о Байесе, здесь и в других местах, но не смог определить, подходит ли он для такого типа приложений, где ответ на фразу «хорошо или плохо» - «это зависит»?

Ответы [ 2 ]

6 голосов
/ 04 февраля 2011

A Наивный байесовский классификатор предполагает независимость между атрибутами. Например, предположим, что у вас есть следующие данные:

яблочно-красный ПЛОХОЙ
яблоко фруктовое зеленое БАД
банан фруктовый желтый ХОРОШО
томат овощной красный ХОРОШО

Независимость означает, что атрибуты (имя, плод, цвет) являются независимыми; например, это «яблоко» может быть или «фрукт» или «овощ». В этом случае атрибуты «имя» и «фрукты» зависят друг от друга, поэтому наивный байесовский классификатор слишком наивен (он, скорее всего, классифицирует «яблочный желтый цвет» как ПЛОХОЙ, потому что это яблоко И это фрукт - но не все яблоки) фрукты?).

Чтобы ответить на ваш первоначальный вопрос, наивный байесовский классификатор предполагает, что класс (ХОРОШИЙ или ПЛОХОЙ) зависит от каждого атрибута независимо, а это не так - мне нравится моя горячая пицца и холодная газировка.

РЕДАКТИРОВАТЬ: Если вы ищете классификатор, который имеет некоторую полезность, но теоретически может иметь многочисленные ошибки типа I и типа II, Наивный Байес такой классификатор. Наивный Байес лучше, чем ничего, но есть измеримая ценность в использовании менее наивного классификатора.

2 голосов
/ 04 марта 2011

Я бы не отмахнулся от Байеса так быстро, как предложил Даниэль. Качество (производительность в математике) байесовского процесса зависит, прежде всего, от количества и качества обучающих данных, а также от предположений, которые вы делаете при разработке своего алгоритма.

Чтобы дать вам краткий пример, если вы подаете в него только {'beer cold' =>: good, 'pizza cold' =>: bad}, слово 'cold' на самом деле не повлияет на классификацию. Он просто решит, что все сорта пива хороши, а все пиццы плохие (посмотрите, насколько это умно? :))

В любом случае, ответ слишком короткий, чтобы объяснить это подробно, я бы порекомендовал прочитать эссе Пола Грэма о том, как он разработал свой спам-фильтр - обратите внимание, что он создал свой собственный алгоритм, основанный на байесовском алгоритме, а не просто готовый классификатор , По моему (пока непродолжительному) опыту кажется, что вам лучше следовать за ним при разработке конкретной версии алгоритма для конкретной задачи, поэтому вы можете контролировать различные предположения, специфичные для конкретной области.

Вы можете следить за моими попытками (в рубине) здесь, если вы заинтересованы: http://arubyguy.com/2011/03/03/bayes-classification-update/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...