Я обучил языковую модель с BerkelyLM и получил некоторые неправдоподобные результаты: когда-либо n-грамм не появляется в тренировочном корпусе, но (n-1) -грамма (то есть w_2, ..., w_n) появляется вкорпус BerkeleyLM дает вероятность (n-1) -граммы без какого-либо фактора отката.Это ошибка?
минимальный пример: тренируйте 3-граммовый Kneser-Ney-LM из:
один два три
один два четыре
и запросить вероятность [«три», «два», «четыре»] даст вероятность [«два», «четыре»]. По формуле я ожидал получить 0 вероятностей или, по крайней мере, некоторый коэффициент отката, отличный отот 1.