Машинное обучение - алгоритм классификации - PullRequest
0 голосов
/ 24 февраля 2012

Я хочу найти следующую вероятность:

P(y=1/n=k; thetha) 

Читать как:

Вероятность, предсказание - это класс 1, заданное количество слов = k, параметризованное тэта

Традиционная классификация не имеет условной вероятности (справа)

P(y = 1; thetha) 

Как мне решить эту проблему?

РЕДАКТИРОВАТЬ:

Например, допустим, я хочу предсказать, является ли электронная почта спамом или нет, основываясь на количестве вложений.Пусть y=1 обозначает спам, а y=0 не является спамом.

Итак,

P(y = 1/num_attachements=0; some attributes)
and so on!!

Имеет ли это какой-то смысл?

Ответы [ 2 ]

1 голос
/ 24 февраля 2012

Обычно количество вложений - это просто еще один атрибут, поэтому ваша вероятность такая же, как у

P(y = 1 | all attributes)

Однако, если у вас есть какой-то особый подход к вложению (скажем, другие атрибуты числовые, а вложение логическое)Вы можете вычислить их отдельно, а затем объединить как:

P(C|A, B) = P(C|A) * P(C|B) / P(C)

, где C обозначает событие y = 1, A - для вложений и B - для других атрибутов.

См. этот документ для описания нескольких классификаторов Бэйеса Нефа.

1 голос
/ 24 февраля 2012

Использовать наивный бейсовский классификатор.Вы можете довольно быстро написать код или использовать / посмотреть библиотеку nltk.

...