Я работал над проблемой классификации текста. Я использую наивный байесовский классификатор текста, как показано здесь .
Текст классифицируется на CLASS1 и CLASS2. Я использую набор данных из 18 образцов. Из этого 3 образца относятся к классу 1, а 18 - к классу 2.
Проблема в том, что, когда слова обоих классов не обнаружены, ожидаемый результат должен быть НЕИЗВЕСТНЫЙ.
На практике это дает выходные данные в виде CLASS2, так как вероятность класса больше, чем CLASS1 из-за разницы в их размере набора данных выборки.
Что я могу сделать, чтобы вывод был НЕИЗВЕСТНЫМ?