Я пытаюсь построить языковую модель с SRILM, используя дисконтирование Kneser-Ney.Кажется, есть два способа использования опции -kndiscount: 1) установить точный порядок ngram для применения дисконтирования: ngram-count -tolower -kndiscount1 -kndiscount2 -kndiscount3 -debug 1 -заказ 4 -text test.txt -lm test.lm -vocab test_voc.txt 2) использование только -kndiscount указывает ngram-count использовать его для всех заказов: ngram-count -tolower -kndiscount -debug 1 -заказ 4 -text test.txt -lm test.lm -vocab test_voc.txt
Я построил две модели с обеими настройками, и они разные.Пробники и веса отката одинаковы для 1грамм и 2грамм, но различны для 3грамм.
Почему это так?Я ожидал подобных результатов