Как рассчитать вероятность языковой модели отката, если в корпусе присутствует только n-1 грамм - PullRequest
0 голосов
/ 28 мая 2019

Я обучил языковую модель с BerkelyLM и получил некоторые неправдоподобные результаты: когда-либо n-грамм не появляется в тренировочном корпусе, но (n-1) -грамма (то есть w_2, ..., w_n) появляется вкорпус BerkeleyLM дает вероятность (n-1) -граммы без какого-либо фактора отката.Это ошибка?

минимальный пример: тренируйте 3-граммовый Kneser-Ney-LM из:

один два три

один два четыре

и запросить вероятность [«три», «два», «четыре»] даст вероятность [«два», «четыре»]. По формуле я ожидал получить 0 вероятностей или, по крайней мере, некоторый коэффициент отката, отличный отот 1.

...