Я работаю над поиском «важности характеристик» для наивных байесовских моделей или, в идеале, которые используют наивные байесовские модели для создания своих прогнозов (т.е. которые приводят к наивысшей вероятности). нашли много ответов, которые стремятся ответить на тот же вопрос, и основывали свою текущую работу на сообщении о переполнении стека .
Мой текущий код приведен ниже (пытаюсь сделать его минимальным и повторяемым насколько возможно):
Результат выглядит так:
MultinomialNB | Score: 0.81192
[('br', -3.2526110546751053), ('film', -3.3810118723988154), ('movi', -3.505443120655009), ('one', -3.9644855550689293), ('like', -4.27222948451632), ('time', -4.530651371310233), ('see', -4.579184102089133), ('good', -4.588233937609051), ('charact', -4.650109341327138), ('stori', -4.656123521837383)]
[('br', -3.2526110546751053), ('film', -3.3810118723988154), ('movi', -3.505443120655009), ('one', -3.9644855550689293), ('like', -4.27222948451632), ('time', -4.530651371310233), ('see', -4.579184102089133), ('good', -4.588233937609051), ('charact', -4.650109341327138), ('stori', -4.656123521837383)]
GaussianNB | Score: 0.79672
Couldn't test: GaussianNB
ComplementNB | Score: 0.81192
[('excel', 7.505813902996572), ('amaz', 7.466220449576814), ('perfect', 7.284934625656391), ('impress', 7.1851596281894885), ('emot', 7.179315076193205), ('experi', 7.141574748210359), ('definit', 7.096586360995577), ('style', 7.092303699203576), ('meet', 7.08485289304771), ('often', 7.08167660662929)]
[('excel', 7.505813902996572), ('amaz', 7.466220449576814), ('perfect', 7.284934625656391), ('impress', 7.1851596281894885), ('emot', 7.179315076193205), ('experi', 7.141574748210359), ('definit', 7.096586360995577), ('style', 7.092303699203576), ('meet', 7.08485289304771), ('often', 7.08167660662929)]
BernoulliNB | Score: 0.79832
[('film', -0.5236348439500489), ('movi', -0.5284175990851931), ('one', -0.5608697735054893), ('br', -0.5615240708602336), ('like', -0.7782599576805733), ('time', -0.9267171252591915), ('see', -0.9447968673740359), ('good', -0.9934224360365533), ('make', -1.039544791007872), ('great', -1.0672202825869217)]
[('film', -0.5236348439500489), ('movi', -0.5284175990851931), ('one', -0.5608697735054893), ('br', -0.5615240708602336), ('like', -0.7782599576805733), ('time', -0.9267171252591915), ('see', -0.9447968673740359), ('good', -0.9934224360365533), ('make', -1.039544791007872), ('great', -1.0672202825869217)]
My вопрос: Почему положительные и отрицательные настроения сообщают об одних и тех же характеристиках с одинаковой вероятностью? Кроме того, почему они отрицательные ??? Наивысшая вероятность - отрицательная?!
Это вопрос, аналогичный