Мы знаем в нейронной сети, если мы хотим, чтобы глобальный минимум был необходим, чтобы функция потерь была выпуклой, поэтому есть ли какие-либо статьи, показывающие это и говорящие об этом?
Это не только для нейронных сетей, для любой задачи обучения, выпуклая функция потерь гарантирует, что существует уникальный минимум.Для большинства общих функций потерь их выпуклость довольно проста, чтобы доказать, используя одно из математических определений выпуклости.Например, эти слайды из Университета Мэриленда касаются всего этого и представляют выпуклые функции потерь вместе с их кривыми: http://users.umiacs.umd.edu/~abhishek/cmsc726slides.pdf