Итак, когда у меня была лекция о логистической регрессии c, нам сказали, что именно точки, закрывающие границу / гиперплоскость, определяют, где заканчивается гиперплоскость. Аргумент состоял в том, что сигмовидная функция почти линейна около p=0.5
.
. Я нахожу это немного странным, поскольку, если мы посмотрим на кросс-энтропию (в двоичном случае), мы получим log-like=-t*log(y)-(1-t)*log(1-y)
, поэтому, если мы пропустили бы классификацию точки с высокой вероятностью (то есть t=1
, но y=0.0001
), мы бы оштрафовали намного больше, чем если бы это была точка близко к границе (y~0.5
), что должно сместить гиперплоскость в сторону большего «очень плохое» предсказание, чем «просто неправильное» предсказание