Наивный Байес смещен? - PullRequest
1 голос
/ 10 мая 2019

У меня есть сценарий использования, когда в тексте необходимо классифицировать его по одной из трех категорий.Я начал с Naive Bayes [Apache OpenNLP, Java], но мне сообщили, что алгоритм смещен, то есть если мои тренировочные данные содержат 60% данных для класса A и 30% для класса B и 10% для classC, то алгоритм имеет тенденцию смещаться в сторонуClassA и, таким образом, предсказывает, что тексты других классов относятся к классу A.

Если это правда, есть ли способ решить эту проблему?

Существуют другие алгоритмы, с которыми я сталкивался, например, классификатор SVM или логистическая регрессия (модель максимальной энтропии), однако я не уверен, что подойдет для моего варианта использования.Пожалуйста, сообщите.

1 Ответ

1 голос
/ 10 мая 2019

есть ли способ преодолеть эту проблему?

Да, есть. Но сначала нужно понять, почему это происходит?

В основном ваш набор данных не сбалансирован.

Несбалансированный набор данных означает, что экземпляры одного из двух классов выше, чем другого, иными словами, число наблюдений не одинаково для всех классов в наборе классификационных данных.

В этом сценарии ваша модель смещается в сторону класса с большинством выборок, поскольку у вас есть больше данных для обучения для этого класса.

* Решения 1016 *

  1. Под выборкой: Случайное удаление выборок из класса большинства для создания баланса набора данных.
  2. Превышение выборки: Добавление большего количества образцов классов меньшинств для создания баланса набора данных.
  3. Изменение показателей производительности Используйте F1-score, 'вспомните or точность` для измерения производительности вашей модели.

Есть еще несколько решений, если вы хотите узнать больше, обратитесь к этому blog

Есть другой алгоритм, с которым я столкнулся, например, классификатор SVM или логистическая регрессия (модель максимальной энтропии), однако я не уверен который будет более подходящим для моего использования

Вы никогда не узнаете, если не попробуете, я бы посоветовал вам попробовать 3-4 различных алгоритма для ваших данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...