У меня есть школьный проект, который состоит из идентификации каждого языка твита из набора твитов. Набор данных содержит твиты на испанском sh, португальском, английском sh, баскском, галисийском и каталонском. Задача состоит в том, чтобы реализовать модель идентификации языка с использованием униграмм, биграмм и триграмм и проанализировать эффективность каждой модели.
Я понимаю концепции нграмм и понимаю, что языки несколько похожи (следовательно, это не так тривиальная задача), но я не понимаю, что я получаю лучшие результаты для униграмм, чем биграмм, и получаю лучшие результаты для биграмм, чем триграмм.
Я не могу понять, как это возможно, так как я ожидал лучшей эффективности для биграмм и триграмм.
Не могли бы вы помочь мне пролить свет на то, почему это происходит?
Спасибо за ваше время.