Я читаю эту статью - https://arxiv.org/pdf/1609.04112.pdf и пытаюсь понять ответ на первый вопрос автора -
почему нелинейная функция активации важна для фильтравывод всех промежуточных слоев?
До этого момента его объяснение казалось понятным -
Мы можем далее обобщить модель RECOS в переведенную единичную сферу
, где μ - среднее значение x.
Я был смущен, почему это считалось «обобщением», но в статье объясняется, почему это было сделано.
Для проблем со зрением элементы x n , n = 1 ... N, из x обозначают N пиксельных значений входного изображения и μсреднее значение всех пикселей.Если вход представляет собой полное изображение, его среднее значение является глобальным средним значением, которое не влияет на понимание изображения.
Может быть удалено перед обработкой.Таким образом, мы устанавливаем μ = 0.
Однако, если входное изображение большое, мы часто разделяем его на более мелкие участки и обрабатываем все исправления параллельно.В этом случае среднее значение каждого патча является локальным средним.Его не следует удалять, поскольку интеграция локальных средств обеспечивает грубое представление всего изображения.Это соответствует общему случаю в формуле.(5).
Я полностью понимаю, пытаясь представить небольшие участки с использованием их среднего значения.
Считается ли среднее смещение сигнала / вектора обобщением? Если такМожет кто-нибудь указать мне теорию, которая обосновывает это утверждение?Я не могу найти подходящую ссылку сам.
Или это просто используется здесь, чтобы проиллюстрировать пример автора и последующие объяснения?
Или я здесь упускаю что-то очевидное?