«Это выгодно ...» - это вопрос, который вы действительно должны задать своей модели, а не нам. DL моделирование по-прежнему остается искусством - иными словами, разумным методом проб и ошибок. Не существует универсального ответа для NNs. Однако, узнав немного об их эффектах, вы сможете настроить свои собственные исследования.
Антропоморфное представление может помочь вам обобщить очень широкое понимание их работы в пределах большой NN; вот мои рабочие интерпретации.
ReLU - это простая настройка ослабления для тренирующегося ядра. Каждое значение матрицы является мерой интереса с точки зрения ядра: «Насколько я взволнован этим элементом матрицы?» ReLU - это правило, которое помогает сфокусировать следующий уровень. Там написано: «Если эта позиция скучна, мне все равно, как * скучно это 1008 *. Не тратьте время на настройку уровня рычащего звука; игнорируйте его". Все такие значения равны 0, что исключает их влияние на последующих слоях. Дальнейшее обучение зависит только от положительной идентификации промежуточных признаков.
Выпадение - это другая философия. Это помогает защитить модель от ложных промежуточных выводов. В нем говорится: «Давайте по-новому взглянем на некоторые из этих вещей. Забудьте кое-что из того, что вы узнали, и начните все сначала». Общая концепция заключается в том, что если что-то является «истинным обучением», то оно поддерживается вводом и / или оставшимся обучением; мы быстро переучим эти веса. Если это была аберрация тасования входных данных или шума в данных, то он вряд ли появится снова, и стертые веса будут использованы для лучшей цели.