Я отвечаю здесь на вопросы в комментариях. Слишком большая тема для комментариев.
Версия Cliff Notes.
Типы оценок, которые мы говорим о вероятности измерения. (Подходит ли это для того, что вы делаете, это другой вопрос.) Если вы предполагаете, что выборки независимы, вы получаете «общую» вероятность, просто умножая все вероятности вместе. Но это обычно приводит к абсурдно малым числам, поэтому эквивалентно вы добавляете логарифмы вероятностей. Чем больше, тем лучше. Ноль идеален.
Вездесущая квадратичная ошибка, -x ^ 2, где x - ошибка модели, происходит из (часто неоправданного) предположения о том, что обучающие данные содержат наблюдения (измерения), искаженные «гауссовским шумом». Если вы посмотрите в Википедии или где-то еще определение гауссовского (нормального) распределения, вы обнаружите, что оно содержит термин e ^ (- x ^ 2). Возьмите натуральный логарифм этого и вуаля! -X ^ 2. Но ваши модели не выдают наиболее вероятные значения «до шума» для измерений. Они производят вероятности напрямую. Поэтому нужно просто добавить логарифмы вероятностей, присвоенных наблюдаемым событиям. Эти наблюдения предполагаются бесшумными. Если данные обучения говорят о том, что это произошло, это произошло.
Ваш оригинальный вопрос остается без ответа. Как определить, отличаются ли две модели «значительно»? Это неопределенный и сложный вопрос. Это предмет многих споров и даже эмоций и злобы. Это также не тот вопрос, на который вы хотите получить ответ. Что вы хотите знать, так это то, какая модель приносит вам наилучшую ожидаемую прибыль, учитывая все обстоятельства, включая стоимость каждого пакета программного обеспечения и т. Д.
Мне скоро придется это прекратить. Это не место для курса по моделированию и вероятности, и я не совсем квалифицирован как профессор.