Есть ли в PySpark параметр, эквивалентный шаблонному весу scikit-learn? - PullRequest
0 голосов
/ 09 июля 2019

В настоящее время я использую SGDClassifier, предоставленный библиотекой scikit-learn.Когда я использую метод fit, я могу установить параметр sample_weight:

Веса, применяемые к отдельным выборкам.Если не указано иное, предполагаются одинаковые веса.Эти веса будут умножены на class_weight (переданный через конструктор), если указан class_weight

Я хочу переключиться на PySpark и использовать класс LogisticRegression.В любом случае я не могу найти параметр, похожий на sample_weight.Есть параметр weightCol, но я думаю, что он делает что-то другое.

Есть ли у вас какие-либо предложения?

1 Ответ

0 голосов
/ 09 июля 2019

Есть параметр weightCol, но я думаю, что он делает что-то другое.

Наоборот, weightCol Spark ML делает именно это;из документов (выделение добавлено):

weightCol = Param (parent = 'undefined', name = 'weightCol', doc = 'name столбца weightЕсли это не установлено или не указано, мы рассматриваем все веса instance как 1.0. ')

...