Использование Python SkLearn Gradient Boost Classifier. Настройка, которую я использую, - это выбор случайных выборок (стохастик). Использование sample_weight 1 для одного из двоичных классов (исход = 0) и 20 для другого класса (результат = 1). Мой вопрос заключается в том, как эти веса применяются в «терминах непрофессионалов».
Если на каждой итерации модель выберет x строк из выборки для результата 0 и y строк для результата 1, тогда параметр sample_weight включит и сохранит все значения x, но передискретизирует y (1 ) результат в 20 раз?
В документации мне не ясно, является ли выборка избыточной, имея sample_weight> 1. Я понимаю, что class_weight отличается и не изменяет данные, но то, как модель интерпретирует данные через функцию потерь. Sample_weight, с другой стороны, правда ли, что он эффективно изменяет данные, поступающие в модель, путем передискретизации?
Спасибо