Как вы тестируете алгоритм машинного обучения, если набор данных не сбалансирован? - PullRequest
1 голос
/ 28 апреля 2020

У меня есть набор данных с хорошими и вредоносными файлами. Помечены как 0 и 1. В наборе данных есть больше вредоносных файлов - например, 3000 против 800 хороших файлов. Тем не менее, я получаю хорошие результаты с логистической c регрессией, случайным лесом и SVM. Я настроил параметры, которые будут скорректированы для несбалансированных наборов данных. Вызов всегда выше 0,90 и точности 0,86-0,9 Оценка AU C всегда составляет от 0,87 до 0,9 в зависимости от алгоритма. Теперь мой вопрос: в реальной жизни файлы, которые будут проходить по алгоритму, будут в основном хорошими (миллионы), а вредоносных - несколько тысяч. Обратный путь, чем в моем наборе данных. Должно ли это быть проблемой для моего тестирования?

RO C Кривые, построенные для всех моих алгоритмов - производительность на тестовом наборе

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...