Почему мой классификатор не работает для новых данных (данных, которые не взяты в качестве набора данных)? - PullRequest
0 голосов
/ 25 апреля 2018

В моем наборе данных имеются документы copd в качестве положительных данных (86) и малярия (20) + диарея (20) + слоновость (20) в качестве отрицательных данных. Таким образом, общее количество документов в моем наборе данных составляет 146, где 86 как положительные и 60 как отрицательные.Я взял соотношение обучения: тестирование 3: 1.Награмма-диапазон (1,1). А также я удалил все числовые функции из списка возможностей. Я принимаю tfidf функций в качестве входных данных. Я использую алгоритм наивного байесовского алгоритмадля обучения и тестирования. Точность = 89%, Точность = 84%, Отзыв = 100%.Теперь я беру новые документы для тестирования за пределами моего набора данных.Там, где 20 документов положительные (copd) и 20 документов отрицательные (которых нет в нашем наборе данных, т.е. болезни, которых нет в нашем наборе данных), теперь он прогнозирует почти все документы как положительные. Или мы можем сказать, что точность уменьшается с большим значением.У меня вопрос, что не так я делаю здесь?Почему мой классификатор не работает для новых документов?Любая помощь будет оценена.

1 Ответ

0 голосов
/ 25 апреля 2018

Вы явно перегружены своим тренировочным комплексом. Вы должны использовать регуляризацию, чтобы ваша модель также хорошо обобщала новые данные.

Вы можете использовать стандарт L2 или метод Dropout для предотвращения перегрузки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...