Как рассчитать недоумение при классификации текста? - PullRequest
0 голосов
/ 20 мая 2019

Я делаю классификацию текстов на диалекте с помощью scikit learn, naive bayes и countvectorizer. До сих пор я делаю только 3 диалектов текстовой классификации. Я собираюсь добавить новый диалект (или фактически официальный язык для этих диалектов). Проблема в том, что новый текст, который я собираюсь добавить, делится множеством слов с другими 3 диалектами. Поэтому я прочитал следующее в исследовательском документе:

Мы обучаем n-граммовую модель для каждого диалекта из собранных данных. к обучаем модель MSA, подбираем предложения из арабского корпуса ООН и новостные коллекции. Все модели диалекта и MSA имеют одинаковые словарный запас, таким образом, недоумение можно сравнить должным образом. В время классификации, учитывая входное предложение, классификатор вычисляет недоумение для каждого типа диалекта и выберите тот с минимальным Недоумение как метка.

Они имеют в виду MSA (современный стандартный арабский), который является официальным языком для этих диалектов. Как они рассчитывают недоумение? Они просто используют наивный байес или есть что-то еще?

1 Ответ

1 голос
/ 20 мая 2019

Из того, что я вижу здесь, в цитируемой работе вообще не используется наивный байесовский классификатор; подход отличается от того, что вы предлагаете.

Предложенный подход заключается в подготовке индивидуальных языковых моделей на основе n-граммы для каждого диалекта, подлежащего классификации. Чтобы классифицировать, в каком диалекте находится данный ввод, текст ввода оценивается для каждой языковой модели. Чем ниже недоумение в соответствии с LM, тем выше вероятность. Следовательно, если ЛМ, обученный на диалекте А, назначает входной сигнал с меньшим недоумением (то есть более высокой вероятностью), чем диалект В, более вероятно, что входной текст будет на диалекте А.

Недоумение - это обратная вероятность некоторого текста, нормализованная по количеству слов ( источник ).

Для предложения W,
Perplexity(W) = P(W)^(-1/N), где N - количество слов в предложении, а P(W) - вероятность W согласно LM.

Следовательно, вычисляется вероятность и, следовательно, недоумение ввода для каждой языковой модели, и они сравниваются для выбора наиболее вероятного диалекта.

...