Параметр LightGBM 'class_weight': использовать с двоичной классификацией или нет? - PullRequest
0 голосов
/ 10 апреля 2020

Когда речь идет о проблеме дисбаланса в классе, наказание класса большинства является обычной практикой, с которой я столкнулся при построении моделей машинного обучения. Поэтому я часто использую веса классов после повторной выборки. LightGBM - это одна эффективная структура на основе дерева решений, которая, как считается, хорошо справляется с дисбалансом классов. Поэтому я использую модель LightGBM для моей проблемы двоичной классификации. Набор данных имеет высокий дисбаланс классов в соотношении 34: 1.

Я изначально использовал классификатор LightGBM с параметром «веса классов». Однако в документации по классификатору LightGBM упоминается использование этого параметра только для многоклассовых задач. Для двоичной классификации предлагается использовать параметры is_unbalance или scale_pos_weight. Но, используя весовые коэффициенты класса, я вижу лучшие результаты, а также легче настраивать весовые коэффициенты и отслеживать производительность модели по сравнению с использованием двух других параметров.

Но поскольку документация рекомендует не использовать его для двоичной классификации, есть ли какие-либо последствия использования параметра? Я получаю хорошие результаты на моих тестовых данных и данных проверки, но мне интересно, будет ли он вести себя иначе на других данных в реальном времени?

...