Целью расчета логарифмического правдоподобия является предоставление показателя c, сопоставимого для разных моделей. Тем не менее, я бы не рекомендовал использовать его таким образом.
Во-первых, если вы действительно заботитесь о предиктивной вероятности языковой модели, вам следует использовать одну из многих более поздних моделей глубоких нейронов.
Во-вторых, вероятность очень чувствительна к параметрам сглаживания, поэтому тот факт, что вы получаете постоянные различия, может быть просто артефактом ваших собственных настроек. Решения предварительной обработки, такие как токенизация и термины из нескольких слов, также могут оказывать большее влияние, чем выбор модели.
В-третьих, если вы действительно заинтересованы в выводе модели topi c, вы должны четко понимать, чего вы хотите от модель и какие характеристики модели делают ее полезной для ваших конкретных потребностей c. Мне нравится предлагать людям думать, что модель топи c больше похожа на создание карты, чем на подгонку регрессии. Наилучшее разрешение карты зависит от того, где вы хотите go.
Наконец, вам почти наверняка лучше с самой простой моделью.