Взвешенный наивный байесовский классификатор в Apache Mahout - PullRequest
2 голосов
/ 20 декабря 2011

Я использую наивный байесовский классификатор для своего анализа настроений по поддержке клиентов.Но, к сожалению, у меня нет огромных аннотированных наборов данных в области поддержки клиентов.Но у меня есть небольшое количество аннотированных данных в одном домене (около 100 положительных и 100 отрицательных).У меня также есть набор данных для обзора продуктов Amazon.

Можно ли в любом случае внедрить взвешенный наивный байесовский классификатор с помощью mahout, чтобы я мог придать больший вес небольшому набору данных службы поддержки клиентов и небольшому весу дляданные обзора продукции Амазонки.Полагаю, что тренинг по вышеупомянутому взвешенному набору данных значительно улучшит точность.Пожалуйста, помогите мне с тем же.

1 Ответ

1 голос
/ 28 декабря 2011

Один действительно простой подход - передискретизация.То есть просто повторяйте примеры поддержки клиентов в ваших данных обучения несколько раз.

Хотя это не та же проблема, вы можете получить некоторые дополнительные идеи, изучая подходы, используемые для дисбаланса в классе;в частности, избыточная выборка (как упоминалось) и недостаточная выборка.

...