Учитывая исходные данные в очень несбалансированных данных в проблеме классификации? - PullRequest
0 голосов
/ 01 июня 2019

У меня есть два фрейма данных (наборы данных);первая состоит из 1000 выборок данных и 21 объекта (последняя функция является целевым значением), а вторая состоит из 200 выборок и того же числа функций, которые я рассматривал как набор тестов.

Первый набор данных рассматривается для обучения модели с помощью классификатора дерева решений, где 90% данных помечены как 0, а 10% помечены как 1. Действительно, это простая проблема классификации.Поэтому я попытался проверить модель, подав тестовый набор, и получил около 45% точности и около 63% значения auc.Это правда, что в этих несбалансированных данных показатель точности не является хорошим показателем для оценки модели, но я рассмотрел базовый уровень в 10% (поскольку положительные метки в обучающем наборе составляют 10% данных) для оценкипрогнозирование.Поэтому мой вопрос: правильно ли считать это предположение 10% данных в качестве базовой линии?И в такой проблеме классификации машинного обучения, правильно ли интерпретировать, что модель может предсказать положительную метку на 45% -ом значении точности с 35% -ным улучшением от базовой линии?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...