В моем наборе данных имеются документы copd в качестве положительных данных (86) и малярия (20) + диарея (20) + слоновость (20) в качестве отрицательных данных. Таким образом, общее количество документов в моем наборе данных составляет 146, где 86 как положительные и 60 как отрицательные.Я взял соотношение обучения: тестирование 3: 1.Награмма-диапазон (1,1). А также я удалил все числовые функции из списка возможностей. Я принимаю tfidf функций в качестве входных данных. Я использую алгоритм наивного байесовского алгоритмадля обучения и тестирования. Точность = 89%, Точность = 84%, Отзыв = 100%.Теперь я беру новые документы для тестирования за пределами моего набора данных.Там, где 20 документов положительные (copd) и 20 документов отрицательные (которых нет в нашем наборе данных, т.е. болезни, которых нет в нашем наборе данных), теперь он прогнозирует почти все документы как положительные. Или мы можем сказать, что точность уменьшается с большим значением.У меня вопрос, что не так я делаю здесь?Почему мой классификатор не работает для новых документов?Любая помощь будет оценена.