Я определяю двоичный конвейер LogisticRegression в PySpark ML для набора данных, в значительной степени несбалансированного.
lr = LogisticRegression(maxIter=10, regParam=0.001, weightCol="weight")
API содержит параметр weightCol = 'weight', который я хочу использовать для своего несбалансированного набора данных , Документы для Pyspark 2.3.0.
weightCol = Param (parent = 'undefined', name = 'weightCol', doc = 'name столбца weight. Если это не установлено или не указано, мы обрабатываем все веса экземпляров равны 1,0. ')
Да, очень многословно ...
Это вес образца или вес класса?
Я не могу найти никакой информации по этому вопросу в других документах.