Почему прямое поэтапное аддитивное моделирование не может работать с функцией абсолютных потерь?

Почему градиентное усиление лучше в этой ситуации?