Question

Я использую наивный байесовский классификатор для своего анализа настроений по поддержке клиентов.Но, к сожалению, у меня нет огромных аннотированных наборов данных в области поддержки клиентов.Но у меня есть небольшое количество аннотированных данных в одном домене (около 100 положительных и 100 отрицательных).У меня также есть набор данных для обзора продуктов Amazon.

Можно ли в любом случае внедрить взвешенный наивный байесовский классификатор с помощью mahout, чтобы я мог придать больший вес небольшому набору данных службы поддержки клиентов и небольшому весу дляданные обзора продукции Амазонки.Полагаю, что тренинг по вышеупомянутому взвешенному набору данных значительно улучшит точность.Пожалуйста, помогите мне с тем же.

mat kelcey · Answer 1 · 28 декабря 2011

Один действительно простой подход - передискретизация.То есть просто повторяйте примеры поддержки клиентов в ваших данных обучения несколько раз.

Хотя это не та же проблема, вы можете получить некоторые дополнительные идеи, изучая подходы, используемые для дисбаланса в классе;в частности, избыточная выборка (как упоминалось) и недостаточная выборка.

Взвешенный наивный байесовский классификатор в Apache Mahout

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Взвешенный наивный байесовский классификатор в Apache Mahout

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы