Из того, что я вижу здесь, в цитируемой работе вообще не используется наивный байесовский классификатор; подход отличается от того, что вы предлагаете.
Предложенный подход заключается в подготовке индивидуальных языковых моделей на основе n-граммы для каждого диалекта, подлежащего классификации. Чтобы классифицировать, в каком диалекте находится данный ввод, текст ввода оценивается для каждой языковой модели. Чем ниже недоумение в соответствии с LM, тем выше вероятность. Следовательно, если ЛМ, обученный на диалекте А, назначает входной сигнал с меньшим недоумением (то есть более высокой вероятностью), чем диалект В, более вероятно, что входной текст будет на диалекте А.
Недоумение - это обратная вероятность некоторого текста, нормализованная по количеству слов ( источник ).
Для предложения W,
Perplexity(W) = P(W)^(-1/N)
, где N
- количество слов в предложении, а P(W)
- вероятность W согласно LM.
Следовательно, вычисляется вероятность и, следовательно, недоумение ввода для каждой языковой модели, и они сравниваются для выбора наиболее вероятного диалекта.