н граммы в Apache Mahout - PullRequest
       30

н граммы в Apache Mahout

3 голосов
/ 20 декабря 2011

Я запускаю алгоритм наивного байесовского классификатора через apache mahout. У нас есть возможность установить размер грамма во время обучения и запуска экземпляра алгоритма.

Изменение размера моего n-грамма с 1 на 2 резко меняет результирующую классификацию. Почему это происходит? Как размер n-граммов радикально меняет результат?

1 Ответ

6 голосов
/ 20 декабря 2011

1-грамм это слова. 2 грамма (или биграммы) - это пары слов. Это похоже на классификацию документов, основанных на существовании "Соединенных Штатов" и "Соединенных Штатов" или "Соединенных Штатов". Использование биграмм может повлиять на пространство и производительность, но, вероятно, даст лучшие результаты, чем 1 грамм.

...