Регуляризация в нейронных сетях - PullRequest
0 голосов
/ 22 мая 2019

Если функция активации, такая как Relu, устанавливает значение узлов на ноль, поэтому необходимо использовать выпадение в той же нейронной сети, выпадение слишком случайным образом выбивает узлы в нейронной сети, поэтому выгодно использовать оба relu и бросить вместе в нейронной сети?

Ответы [ 2 ]

1 голос
/ 22 мая 2019

В то время как оба метода устанавливают для некоторых узлов значение 0, выпадение будет происходить случайным образом, а relu будет делать это в зависимости от входных данных и, следовательно, будет полностью отличаться в своем использовании. Выпадение используется для уменьшения вероятности предсказания сети на основе жесткой структуры нейронов, например он должен включать как можно больше нейронов в процесс принятия решений. Это делает его более устойчивым к шуму и, следовательно, лучше обобщает. ReLU - это простая функция активации, которая на практике хорошо работает для обучения больших сетей.

Итак, в заключение, да, имеет смысл использовать их вместе, и это может уменьшить переоснащение.

0 голосов
/ 22 мая 2019

«Это выгодно ...» - это вопрос, который вы действительно должны задать своей модели, а не нам. DL моделирование по-прежнему остается искусством - иными словами, разумным методом проб и ошибок. Не существует универсального ответа для NNs. Однако, узнав немного об их эффектах, вы сможете настроить свои собственные исследования.

Антропоморфное представление может помочь вам обобщить очень широкое понимание их работы в пределах большой NN; вот мои рабочие интерпретации.

ReLU - это простая настройка ослабления для тренирующегося ядра. Каждое значение матрицы является мерой интереса с точки зрения ядра: «Насколько я взволнован этим элементом матрицы?» ReLU - это правило, которое помогает сфокусировать следующий уровень. Там написано: «Если эта позиция скучна, мне все равно, как * скучно это 1008 *. Не тратьте время на настройку уровня рычащего звука; игнорируйте его". Все такие значения равны 0, что исключает их влияние на последующих слоях. Дальнейшее обучение зависит только от положительной идентификации промежуточных признаков.

Выпадение - это другая философия. Это помогает защитить модель от ложных промежуточных выводов. В нем говорится: «Давайте по-новому взглянем на некоторые из этих вещей. Забудьте кое-что из того, что вы узнали, и начните все сначала». Общая концепция заключается в том, что если что-то является «истинным обучением», то оно поддерживается вводом и / или оставшимся обучением; мы быстро переучим эти веса. Если это была аберрация тасования входных данных или шума в данных, то он вряд ли появится снова, и стертые веса будут использованы для лучшей цели.

...