Question

Я использую классификацию текста для классификации арабских диалектов, пока у меня есть 4 диалекта.Однако теперь я хочу, чтобы классификатор обнаружил формальный (стандартный или грамматический) язык этих диалектов, который называется MSA (современный стандартный арабский).

Должен ли я использовать грамматический анализ?построить модель языка?или я делаю то же самое, что и с диалектами, собирая твиты MSA, а затем обучаю их?

mujjiga · Answer 1 · 14 мая 2019

Вы можете обучить языковой модели для каждого диалекта языка.Затем по заданному предложению найдите (log) вероятность, возвращаемую каждой языковой моделью, и назначьте ее языковой модели, которая возвращает высокий балл.

p* = argmax p_i p_i(sentence)

где p_i - языковая модель диалектов i.

Языковая модель - это распределение вероятностей по последовательностям слов.Учитывая предложение, скажем, длины m, оно присваивает вероятность P(w1, ... ,wm) всей последовательности.Таким образом, предложение будет принадлежать диалекту, у которого P_i(w) является высоким, где P_i является языковой моделью диалекта i.

Как обучить классификатор для определения родного языка из грамматического языка?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обучить классификатор для определения родного языка из грамматического языка?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы