Проверка модели для несбалансированных данных - как я могу интерпретировать матрицу путаницы и апостериорные вероятности? - PullRequest
0 голосов
/ 24 января 2020

Я новичок в Data Science, поэтому, пожалуйста, если вы сможете объяснить это как можно проще, это будет очень полезно.

Я построил модель прогнозирования на сильно несбалансированных данных (коэффициент отклика 2%). У меня 1000 респондентов (1 с) в общей численности населения 50 000 человек. Я выбрал недостаточно респондентов для сопоставления с респондентами, т.е. в моем окончательном наборе данных у меня 1000 респондентов и 1000 не респондентов. Сейчас я проверяю это на реальных новых данных, где снова у меня только 2% ответов. Мои вопросы: как мне следует интерпретировать матрицу путаницы, поскольку доля респондентов в данных по обучению и тестированию сильно отличается (50% в обучении и 2% в данных по тестированию)? При расчете специфичности или чувствительности не учитываются предсказанные оценки вероятности? т. е. прогнозируемые оценки вероятности будут очень высокими в наборе тестовых данных, потому что у меня слишком высокий процент ответов в модели. Нужно ли корректировать вероятности (весами или другим методом) перед чтением в Специфичность или Чувствительность и т. Д. c?
Как я могу интерпретировать отзыв и оценку F1 в макросе ниже матрицы

          precision    recall  f1-score   support

       0       0.99      0.78      0.87     72023
       1       0.06      0.55      0.10      1709
accuracy                           0.78     73732

средняя 0,52 0,67 0,49 73732 взвешенная средняя 0,97 0,78 0,85 73732

Спасибо, Сачин

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...