В прямом поэтапном аддитивном моделировании, если функция потерь является квадратом потерь, следующий слабый ученик подходит к остаточной ошибке.
Почему бы нам не сделать это, если функция потерь - абсолютная ошибка или другие?
Почему градиентное усиление лучше в этой ситуации?