Наивный байесовский классификатор: количество проблем с образцами данных - PullRequest
0 голосов
/ 03 мая 2018

Я работал над проблемой классификации текста. Я использую наивный байесовский классификатор текста, как показано здесь .

Текст классифицируется на CLASS1 и CLASS2. Я использую набор данных из 18 образцов. Из этого 3 образца относятся к классу 1, а 18 - к классу 2.

Проблема в том, что, когда слова обоих классов не обнаружены, ожидаемый результат должен быть НЕИЗВЕСТНЫЙ.

На практике это дает выходные данные в виде CLASS2, так как вероятность класса больше, чем CLASS1 из-за разницы в их размере набора данных выборки.

Что я могу сделать, чтобы вывод был НЕИЗВЕСТНЫМ?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...