Ваш третий элемент интерпретирован неправильно.Модель возвращает нормированный балл 0,94 для категории «человек».Хотя этот показатель относительно хорошо коррелирует с нашими когнитивными понятиями «вероятность» и «уверенность», не путайте его ни с одним из них.Это удобный показатель с некоторыми общими полезными свойствами, но он не точный прогноз с точностью до двух цифр.
Конечно, вполне могут быть модели, для которых прогноз модели точная цифра.Например, модели RealOdds
, которые вы найдете на 538
, созданы и протестированы в соответствии с этим стандартом.Тем не менее, это целенаправленные усилия более десяти лет;Ваша повседневная модель глубокого обучения не соответствует одному и тому же стандарту ... если только вы не настроите ее на это, сделав точность этого числа частью вашей тренировки (включите ее в функцию ошибок).
Вы можете провести простой (хотя и объемный) эксперимент: собрать все прогнозы и скопировать их;скажем, диапазон 0,1 для каждого из 10 бинов.Теперь, если этот «прогноз» действительно является вероятностью, то ваш бин 0,6–0,7 должен правильно идентифицировать человека в 65% случаев.Сверьте это с основной правдой: этот бен получил 65% правильно и 35% неправильно?Находится ли расхождение в ожидаемых пределах: сделайте это для каждой из 10 категорий и запустите на нем свои любимые применимые статистические показатели.
Я ожидаю, что это убедит вас в том, что оценка вывода не является ни прогнозом, ни оценкой доверия,Тем не менее, я также надеюсь, что это даст вам некоторые идеи для будущей работы.