Я новичок в Data Science, поэтому, пожалуйста, если вы сможете объяснить это как можно проще, это будет очень полезно.
Я построил модель прогнозирования на сильно несбалансированных данных (коэффициент отклика 2%). У меня 1000 респондентов (1 с) в общей численности населения 50 000 человек. Я выбрал недостаточно респондентов для сопоставления с респондентами, т.е. в моем окончательном наборе данных у меня 1000 респондентов и 1000 не респондентов. Сейчас я проверяю это на реальных новых данных, где снова у меня только 2% ответов. Мои вопросы: как мне следует интерпретировать матрицу путаницы, поскольку доля респондентов в данных по обучению и тестированию сильно отличается (50% в обучении и 2% в данных по тестированию)? При расчете специфичности или чувствительности не учитываются предсказанные оценки вероятности? т. е. прогнозируемые оценки вероятности будут очень высокими в наборе тестовых данных, потому что у меня слишком высокий процент ответов в модели. Нужно ли корректировать вероятности (весами или другим методом) перед чтением в Специфичность или Чувствительность и т. Д. c?
Как я могу интерпретировать отзыв и оценку F1 в макросе ниже матрицы
precision recall f1-score support
0 0.99 0.78 0.87 72023
1 0.06 0.55 0.10 1709
accuracy 0.78 73732
средняя 0,52 0,67 0,49 73732 взвешенная средняя 0,97 0,78 0,85 73732
Спасибо, Сачин