Размер обучающих данных для байесовского классификатора - PullRequest
1 голос
/ 25 января 2012

Я использую apache mahout для выполнения анализа настроений в домене поддержки клиентов.Поскольку я не могу получить надлежащий набор данных для тренировок, я сделал свой собственный.Теперь у меня есть 100 писем поддержки для положительных настроений и 100 для отрицательных.

Но проблема в том, что я не могу достичь точности.Это остается где-то около 55%, что жалко.Точность около 70% и выше будет удовлетворительной.Также обратите внимание, что я использую бесплатный наивный байесовский классификатор apache mahout.

Точнее говоря, является ли меньший размер набора данных, который снижает точность?Если нет, то где мне настроить?

1 Ответ

4 голосов
/ 17 февраля 2012

Только для пользы тех, кто изучает этот вопрос в будущем, я поделюсь тем, как я изменил точность моего классификатора с 50 до 78%

  • Выполнение на основе обучения ивходные данные
  • Выполнение удаления стоп-слов на тренировочных и входных данных
  • Преобразование обучающих и входных данных в нижний регистр (или верхний регистр)
  • Иметь примерно одинаковое количество выборок в каждой категорииданных обучения
  • Точная настройка уровня ngram в соответствии с вашим доменом.

Это должно значительно повысить вашу точность.

...