Это практический вопрос :
You have classification data with classes Y ∈ {+1, −1} and features Fi ∈ {+1, −1} for
i ∈ {1, . . . , K}. In an attempt to turbocharge your classifier, you duplicate each feature, so now each example
has 2K features, with FK+i = Fi for i ∈ {1, . . . , K}. The following questions compare the original feature set
with the doubled one. You may assume that in the case of ties, class +1 is always chosen. Assume that there
are equal numbers of training examples in each class.
Решение говорит, что оно приводит к самоуверенности.Но как?
В наивных байесах мы предполагаем, что каждая функция не зависит от других функций, указанных в метке класса.
Допустим, один из примеров имеет функции {1, -1}.
P(y = -1 | x_1 = 1, x_2 = -1) = P(y=-1)P(x_1 = 1 | y= -1)
X P(x_2 = -1 | y=-1)
Если мы удваиваем объекты, мы переписываем как:
P(y = 1 | x_1 = 1, x_2 = 1, x_3, = -1, x_4 = -1) =
P(y=-1) x P(x_1 = 1 | y=-) * P(x_2 = 1 | y=-) X P(x_3 = -1 | y=-)
X P(x_3 = -1 | y=-)
Каждая вероятность меньше 1 - поэтому умножение большего количества дробей не приведет к меньшей вероятности (и, следовательно,менее уверенная классификация) в примере с двойными функциями?