SciKit Learn Logisti c регрессия Проблема одного стиха - PullRequest
2 голосов
/ 04 апреля 2020

Как Sklearn Logisti c Регрессия обрабатывает дисбаланс классов, возникающий из-за схемы обработки мультикласса OVR (один против отдыха)?

В библиотеке SciKit-Learn вам предоставляется API LogisticRegression.

Ссылка: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

Одним из параметров этого API является multi_class (значение по умолчанию - 'auto')

Если я изменю 'auto' на 'ovr', это означает, что для обучения модели для задачи с несколькими классами используется метод «один стих в остальном».

При использовании ovr эта стратегия заключается в подборе одного классификатора на класс

Ссылка: https://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html

Например, мой набор данных состоит из 10 классов (число классов распределено равномерно)

ovr обучит мне 10 классификаторов.

Первый: класс А против класса не А Второй: класс Б против класса не В ....

Мой вопрос заключается в том, как SciKit научиться обрабатывать несбалансированные данные, так как при обучении первого классификатора число не A> Класс A (около 9: 1) ???

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...