Я выполняю полиномиальную логистическую регрессию для переменных в наборе данных NHTS 2017 .Согласно документам, sklearn.linear_model.LogisticRegression
использует кросс-энтропийную потерю (log log) в качестве функции потерь для оптимизации модели.Однако, поскольку я добавляю новые функции и подгоняю модель, потери, похоже, не уменьшаются монотонно.В частности, если я подгоняю количество водителей в домохозяйстве на владение транспортным средством (количество водителей - самая прогнозируемая переменная для владения транспортным средством), я получаю меньше потерь, чем если бы я разбирал все переменные без разбора.
Возможно, это связано сsklearn.metrics.log_loss
делает что-то отличное от фактической функции потерь для LogisticRegression
.Возможно, проблема стала настолько невыпуклой, что она находит дерьмовое решение.Кто-нибудь может объяснить, почему моя потеря будет увеличиваться , когда я добавляю функции?