Вы можете обучить языковой модели для каждого диалекта языка.Затем по заданному предложению найдите (log) вероятность, возвращаемую каждой языковой моделью, и назначьте ее языковой модели, которая возвращает высокий балл.
p* = argmax p_i p_i(sentence)
где p_i
- языковая модель диалектов i.
Языковая модель - это распределение вероятностей по последовательностям слов.Учитывая предложение, скажем, длины m
, оно присваивает вероятность P(w1, ... ,wm)
всей последовательности.Таким образом, предложение будет принадлежать диалекту, у которого P_i(w)
является высоким, где P_i
является языковой моделью диалекта i
.