Наивный байесовский feature_log_proba_ дает неверные результаты - PullRequest
1 голос
/ 05 августа 2020

Я работаю над поиском «важности характеристик» для наивных байесовских моделей или, в идеале, которые используют наивные байесовские модели для создания своих прогнозов (т.е. которые приводят к наивысшей вероятности). нашли много ответов, которые стремятся ответить на тот же вопрос, и основывали свою текущую работу на сообщении о переполнении стека .

Мой текущий код приведен ниже (пытаюсь сделать его минимальным и повторяемым насколько возможно):

Набор данных:

| stack | overflow | is | a | great | resource | for | programmers | to | use | classification |
|:-----:|:--------:|:--:|:-:|:-----:|:--------:|:---:|:-----------:|:--:|:---:|:--------------:|
|   2   |     2    |  2 | 0 |   1   |     0    |  0  |      1      |  1 |  0  |       -1       |
|   2   |     1    |  2 | 0 |   1   |     0    |  1  |      1      |  3 |  3  |       -1       |
|   2   |     1    |  1 | 0 |   2   |     0    |  3  |      0      |  2 |  1  |       -1       |
|   1   |     3    |  2 | 2 |   1   |     3    |  2  |      3      |  3 |  0  |       -1       |
|   2   |     2    |  3 | 2 |   1   |     2    |  0  |      2      |  2 |  3  |       -1       |
|   2   |     2    |  5 | 3 |   1   |     2    |  6  |      7      |  7 |  10 |        1       |
|   0   |     2    |  4 | 2 |   1   |     0    |  6  |      10     |  6 |  6  |        1       |
|   5   |     3    |  1 | 3 |   5   |     2    |  9  |      9      |  8 |  10 |        1       |
|   2   |     0    |  2 | 0 |   2   |     2    |  9  |      6      |  7 |  9  |        1       |
|   1   |     3    |  3 | 5 |   4   |     3    |  10 |      8      |  9 |  6  |        1       |

Код ниже:

Результат выглядит так:

MultinomialNB | Score: 0.81192
[('br', -3.2526110546751053), ('film', -3.3810118723988154), ('movi', -3.505443120655009), ('one', -3.9644855550689293), ('like', -4.27222948451632), ('time', -4.530651371310233), ('see', -4.579184102089133), ('good', -4.588233937609051), ('charact', -4.650109341327138), ('stori', -4.656123521837383)]
[('br', -3.2526110546751053), ('film', -3.3810118723988154), ('movi', -3.505443120655009), ('one', -3.9644855550689293), ('like', -4.27222948451632), ('time', -4.530651371310233), ('see', -4.579184102089133), ('good', -4.588233937609051), ('charact', -4.650109341327138), ('stori', -4.656123521837383)]
GaussianNB | Score: 0.79672
Couldn't test: GaussianNB
ComplementNB | Score: 0.81192
[('excel', 7.505813902996572), ('amaz', 7.466220449576814), ('perfect', 7.284934625656391), ('impress', 7.1851596281894885), ('emot', 7.179315076193205), ('experi', 7.141574748210359), ('definit', 7.096586360995577), ('style', 7.092303699203576), ('meet', 7.08485289304771), ('often', 7.08167660662929)]
[('excel', 7.505813902996572), ('amaz', 7.466220449576814), ('perfect', 7.284934625656391), ('impress', 7.1851596281894885), ('emot', 7.179315076193205), ('experi', 7.141574748210359), ('definit', 7.096586360995577), ('style', 7.092303699203576), ('meet', 7.08485289304771), ('often', 7.08167660662929)]
BernoulliNB | Score: 0.79832
[('film', -0.5236348439500489), ('movi', -0.5284175990851931), ('one', -0.5608697735054893), ('br', -0.5615240708602336), ('like', -0.7782599576805733), ('time', -0.9267171252591915), ('see', -0.9447968673740359), ('good', -0.9934224360365533), ('make', -1.039544791007872), ('great', -1.0672202825869217)]
[('film', -0.5236348439500489), ('movi', -0.5284175990851931), ('one', -0.5608697735054893), ('br', -0.5615240708602336), ('like', -0.7782599576805733), ('time', -0.9267171252591915), ('see', -0.9447968673740359), ('good', -0.9934224360365533), ('make', -1.039544791007872), ('great', -1.0672202825869217)]

My вопрос: Почему положительные и отрицательные настроения сообщают об одних и тех же характеристиках с одинаковой вероятностью? Кроме того, почему они отрицательные ??? Наивысшая вероятность - отрицательная?!

Это вопрос, аналогичный

оставленному здесь сообщению
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...