Эталонная группа в полиномиальной регрессии PySpark - PullRequest
0 голосов
/ 26 сентября 2018

Кто-нибудь знает, какая эталонная группа по умолчанию находится в полиномиальной логистической регрессии Pyspark.Например, у нас есть мультиклассовые результаты / цель A, B, C, and D.

Как свеча выбирает справочную категорию?В стандартной логистической регрессии в другом программном обеспечении (например, R, SAS) вы можете установить контрольную группу самостоятельно.Таким образом, если ваша ссылка A, вы получаете n-1 модели, объединенные вместе, и целевые классы смоделированы как A vs B, A vs C, and A vs D.

. Вы хотите контролировать этот процесс, потому что если результат с небольшим числом значений(небольшая выборка наблюдений) устанавливается в качестве эталона, оценки будут нестабильными.

Вот ссылка на полиномиальную модель логистической регрессии в pyspark.Здесь итоговые классы равны 0, 1, 2, но нет ясности в отношении ссылки.Я предполагаю, что это может быть ноль, но не уверен в этом.

1 Ответ

0 голосов
/ 26 сентября 2018

Я считаю, что по умолчанию не использует справочную группу .Вот почему, если вы запустите snip по вашей ссылке, вы найдете ненулевые значения для всех перехватов.

Из источника scala: https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ml/optim/aggregator/LogisticAggregator.scala

  • Примечаниечто есть разница между полиномиальной (softmax) и двоичной потерей.Двоичный регистр
  • использует один класс результата в качестве "сводного" и регрессирует другой класс в сводный.В полиномиальном случае
  • функция потерь softmax используется для моделирования вероятности каждого класса
  • независимо.Использование softmax loss создает K наборов коэффициентов, тогда как использование сводного класса
  • создает K - 1 наборов коэффициентов (один вектор коэффициента в двоичном случае).В двоичном случае
  • можно сказать, что коэффициенты распределяются между положительными и отрицательными
  • классами ...

Это продолжаетсяпоговорим о том, как коэффициенты обычно не идентифицируемы (именно поэтому можно выбрать ссылочную метку), но когда применяются регуляризации, коэффициенты становятся идентифицируемыми.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...