Question

Я использую apache mahout для выполнения анализа настроений в домене поддержки клиентов.Поскольку я не могу получить надлежащий набор данных для тренировок, я сделал свой собственный.Теперь у меня есть 100 писем поддержки для положительных настроений и 100 для отрицательных.

Но проблема в том, что я не могу достичь точности.Это остается где-то около 55%, что жалко.Точность около 70% и выше будет удовлетворительной.Также обратите внимание, что я использую бесплатный наивный байесовский классификатор apache mahout.

Точнее говоря, является ли меньший размер набора данных, который снижает точность?Если нет, то где мне настроить?

Greenhorn · Answer 1 · 17 февраля 2012

Только для пользы тех, кто изучает этот вопрос в будущем, я поделюсь тем, как я изменил точность моего классификатора с 50 до 78%

Выполнение на основе обучения ивходные данные
Выполнение удаления стоп-слов на тренировочных и входных данных
Преобразование обучающих и входных данных в нижний регистр (или верхний регистр)
Иметь примерно одинаковое количество выборок в каждой категорииданных обучения
Точная настройка уровня ngram в соответствии с вашим доменом.

Это должно значительно повысить вашу точность.

Размер обучающих данных для байесовского классификатора

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Размер обучающих данных для байесовского классификатора

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы