Как обучить классификатор для определения родного языка из грамматического языка? - PullRequest
1 голос
/ 14 мая 2019

Я использую классификацию текста для классификации арабских диалектов, пока у меня есть 4 диалекта.Однако теперь я хочу, чтобы классификатор обнаружил формальный (стандартный или грамматический) язык этих диалектов, который называется MSA (современный стандартный арабский).

Должен ли я использовать грамматический анализ?построить модель языка?или я делаю то же самое, что и с диалектами, собирая твиты MSA, а затем обучаю их?

1 Ответ

1 голос
/ 14 мая 2019

Вы можете обучить языковой модели для каждого диалекта языка.Затем по заданному предложению найдите (log) вероятность, возвращаемую каждой языковой моделью, и назначьте ее языковой модели, которая возвращает высокий балл.

p* = argmax p_i p_i(sentence)

где p_i - языковая модель диалектов i.

Языковая модель - это распределение вероятностей по последовательностям слов.Учитывая предложение, скажем, длины m, оно присваивает вероятность P(w1, ... ,wm) всей последовательности.Таким образом, предложение будет принадлежать диалекту, у которого P_i(w) является высоким, где P_i является языковой моделью диалекта i.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...