В PySpark ML LogisticRegression weightCol реализован sampleWeight или classWeight? - PullRequest
0 голосов
/ 02 апреля 2020

Я определяю двоичный конвейер LogisticRegression в PySpark ML для набора данных, в значительной степени несбалансированного.

lr = LogisticRegression(maxIter=10, regParam=0.001, weightCol="weight")

API содержит параметр weightCol = 'weight', который я хочу использовать для своего несбалансированного набора данных , Документы для Pyspark 2.3.0.

weightCol = Param (parent = 'undefined', name = 'weightCol', doc = 'name столбца weight. Если это не установлено или не указано, мы обрабатываем все веса экземпляров равны 1,0. ')

Да, очень многословно ...

Это вес образца или вес класса?

Я не могу найти никакой информации по этому вопросу в других документах.

1 Ответ

0 голосов
/ 02 апреля 2020

Когда документация Spark нечеткая, особенно на стороне Python, часто лучше всего ставить go на Scala исходный код: https://github.com/apache/spark/blob/992447fb30ee9ebb3cf794f2d06f4d63a2d792db/mllib/src/main/scala/org/apache/spark/ml/classification/LogisticRegression.scala#L491

Не копая здесь слишком много, похоже, что вес - это столбец Double, примененный на уровне строк, поэтому я собираюсь использовать sample weight.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...