Question

Я работал над проблемой классификации текста. Я использую наивный байесовский классификатор текста, как показано здесь .

Текст классифицируется на CLASS1 и CLASS2. Я использую набор данных из 18 образцов. Из этого 3 образца относятся к классу 1, а 18 - к классу 2.

Проблема в том, что, когда слова обоих классов не обнаружены, ожидаемый результат должен быть НЕИЗВЕСТНЫЙ.

На практике это дает выходные данные в виде CLASS2, так как вероятность класса больше, чем CLASS1 из-за разницы в их размере набора данных выборки.

Что я могу сделать, чтобы вывод был НЕИЗВЕСТНЫМ?

Наивный байесовский классификатор: количество проблем с образцами данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.