Матрица путаницы: что значит иметь значение 0 в истинном отрицании? - PullRequest
0 голосов
/ 16 января 2020

Я работаю над набором данных прогнозирования оттока с использованием регрессии logisti c. Модель прогнозирует точность 95%, но запутанная матрица дает следующий результат:

array([[1517,    0],
       [  70,    0]], dtype=int64)

Как я могу сделать модель для прогнозирования истинных негативов?

Ответы [ 2 ]

1 голос
/ 16 января 2020

Это типичная проблема несбалансированных данных.

Ваша логистика c классификация является предсказанием только одного класса (в данном случае класса 0) и вообще не учитывает никаких других результатов.

Существуют тонны ключевых слов / идей для решения этого решения, которые выходят за рамки этой области. Чтобы дать вам несколько модных слов:

  • Over / Undsampling
  • Обнаружение выброса
  • Изменение задачи оптимизации классификатора

Основы нет c решение этой проблемы, вам действительно нужно работать над этим topi c!

0 голосов
/ 17 января 2020

Я хочу добавить к ответу по PV8, как уже упоминалось выше, это очень несбалансированный набор данных. Вы можете посмотреть на различные показатели, такие как ROC, PR curve, сбалансированный показатель точности, stratified k fold cross validation, отрегулировать вес классов и попробовать under/over sampling. Может быть хорошей идеей попробовать другие упомянутые подходы, прежде чем приступить к выборке.

Поскольку вы используете scikit-learn, вы можете использовать пакет imbalanced-learn вместе с ним, https://imbalanced-learn.readthedocs.io/en/stable/install.html , Он обеспечит различные алгоритмы выборки заниженной / избыточной выборки, классификаторы, показатели для несбалансированных наборов данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...