Question

Кто-нибудь знает, какая эталонная группа по умолчанию находится в полиномиальной логистической регрессии Pyspark.Например, у нас есть мультиклассовые результаты / цель A, B, C, and D.

Как свеча выбирает справочную категорию?В стандартной логистической регрессии в другом программном обеспечении (например, R, SAS) вы можете установить контрольную группу самостоятельно.Таким образом, если ваша ссылка A, вы получаете n-1 модели, объединенные вместе, и целевые классы смоделированы как A vs B, A vs C, and A vs D.

. Вы хотите контролировать этот процесс, потому что если результат с небольшим числом значений(небольшая выборка наблюдений) устанавливается в качестве эталона, оценки будут нестабильными.

Вот ссылка на полиномиальную модель логистической регрессии в pyspark.Здесь итоговые классы равны 0, 1, 2, но нет ясности в отношении ссылки.Я предполагаю, что это может быть ноль, но не уверен в этом.

andrew · Answer 1 · 26 сентября 2018

Я считаю, что по умолчанию не использует справочную группу .Вот почему, если вы запустите snip по вашей ссылке, вы найдете ненулевые значения для всех перехватов.

Из источника scala: https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ml/optim/aggregator/LogisticAggregator.scala

Примечаниечто есть разница между полиномиальной (softmax) и двоичной потерей.Двоичный регистр

использует один класс результата в качестве "сводного" и регрессирует другой класс в сводный.В полиномиальном случае

функция потерь softmax используется для моделирования вероятности каждого класса

независимо.Использование softmax loss создает K наборов коэффициентов, тогда как использование сводного класса

создает K - 1 наборов коэффициентов (один вектор коэффициента в двоичном случае).В двоичном случае

можно сказать, что коэффициенты распределяются между положительными и отрицательными

классами ...

Это продолжаетсяпоговорим о том, как коэффициенты обычно не идентифицируемы (именно поэтому можно выбрать ссылочную метку), но когда применяются регуляризации, коэффициенты становятся идентифицируемыми.

Эталонная группа в полиномиальной регрессии PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Эталонная группа в полиномиальной регрессии PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы