Я думаю, если вы присмотритесь, вы увидите, что прогнозируемые вероятности для двух классов в сумме составляют ~ 1
с учетом ошибок округления и числовых c приближений в процессе NB. Например, для каждой строки, где один класс равен ~ = 1.00000000
, значение другого класса исчезающе мало.
Во-вторых, в этом случае трудно понять, чего вы хотите от «уверенности». Многие инструменты классификации в sklearn
имеют метод decision_function()
, который дает вам расстояние оценки от границы решения. В этом случае граница принятия решения является функцией выбранного вами типа NB (гауссовский). Я думаю, это объяснение построения границы могло бы быть очень полезным.
Но более тщательный поиск SO дал бы вам этот вопрос , который, я думаю, мог бы получить ближе к тому, что вы ищете.