У меня есть набор данных классификации для одной метки, который дополняется вспомогательным столбцом уверенности, которой мы располагаем в источнике метки. Значения достоверности являются категориальными (низкий, средний, высокий). Они вытекают из процесса, который был ответственным за задачу маркировки этого образца. В качестве иллюстративного примера, в классификационном наборе данных musi c мы более уверены в точности меток песен, которые были помечены настоящим музыкантом.
Does Scikit- научиться предоставлять какие-либо явные средства включения этой вспомогательной информации о достоверности, чтобы узнать лучшую модель?
Если нет, то какие были бы разумные альтернативы для этого в Scikit-learn? Было бы разумно назначить вес, пропорциональный уровню достоверности, и включить его в функцию потерь модели в виде коэффициентов [ 1 , 2 ]? sklearn.linear_model.LogisticRegression
, например, принимает вектор sample_weight
, который выглядит соответствующим.