Классификатор повышения градиента Python SkLearn Sample_Weight Clarification - PullRequest
0 голосов
/ 30 августа 2018

Использование Python SkLearn Gradient Boost Classifier. Настройка, которую я использую, - это выбор случайных выборок (стохастик). Использование sample_weight 1 для одного из двоичных классов (исход = 0) и 20 для другого класса (результат = 1). Мой вопрос заключается в том, как эти веса применяются в «терминах непрофессионалов».

Если на каждой итерации модель выберет x строк из выборки для результата 0 и y строк для результата 1, тогда параметр sample_weight включит и сохранит все значения x, но передискретизирует y (1 ) результат в 20 раз?

В документации мне не ясно, является ли выборка избыточной, имея sample_weight> 1. Я понимаю, что class_weight отличается и не изменяет данные, но то, как модель интерпретирует данные через функцию потерь. Sample_weight, с другой стороны, правда ли, что он эффективно изменяет данные, поступающие в модель, путем передискретизации?

Спасибо

1 Ответ

0 голосов
/ 30 августа 2018

Выборочные веса являются множителем, вот код:

https://github.com/scikit-learn/scikit-learn/blob/f0ab589f/sklearn/ensemble/gradient_boosting.py#L1225

...