Как Sklearn Logisti c Регрессия обрабатывает дисбаланс классов, возникающий из-за схемы обработки мультикласса OVR (один против отдыха)?
В библиотеке SciKit-Learn вам предоставляется API LogisticRegression.
Ссылка: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
Одним из параметров этого API является multi_class (значение по умолчанию - 'auto')
Если я изменю 'auto' на 'ovr', это означает, что для обучения модели для задачи с несколькими классами используется метод «один стих в остальном».
При использовании ovr эта стратегия заключается в подборе одного классификатора на класс
Ссылка: https://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html
Например, мой набор данных состоит из 10 классов (число классов распределено равномерно)
ovr обучит мне 10 классификаторов.
Первый: класс А против класса не А Второй: класс Б против класса не В ....
Мой вопрос заключается в том, как SciKit научиться обрабатывать несбалансированные данные, так как при обучении первого классификатора число не A> Класс A (около 9: 1) ???