Насколько необходимы функции активации после плотного слоя в нейронных сетях? - PullRequest
2 голосов
/ 16 февраля 2020

В настоящее время я впервые тренирую многократные сверточные нейронные сети с глубоким q-обучением.

Вход представляет собой матрицу 11x11x1, каждая сеть состоит из 4 сверточных слоев с размерами 3x3x16, 3x3x32, 3x3x64, 3x3x64. Я использую шаг = 1 и отступ = 1. За каждым convLayer следует активация ReLU. Выходной сигнал подается в полностью подключенный плотный слой с прямой связью со 128 единицами, а затем в слой LSTM, также содержащий 128 единиц. Два следующих плотных слоя производят отдельные пары преимуществ и стоимости.

Итак, обучение продолжается в течение пары дней, и теперь я понял (после того, как прочитал некоторую связанную статью), я не добавил функцию активации после первого плотного слоя (как в большинстве бумаг). Интересно, значительно ли это добавит мою сеть? Так как я готовлю сети для университета, у меня нет неограниченного времени для обучения из-за крайнего срока моей работы. Однако у меня недостаточно опыта в обучении нейронных сетей, чтобы решить, что делать ... Что вы предлагаете? Я благодарен за каждый ответ!

1 Ответ

3 голосов
/ 16 февраля 2020

Если мне нужно говорить в общем, использование функции активации поможет вам включить в вашу сеть нелинейное свойство.

Цель функции активации - добавить какое-то нелинейное свойство к функции, которая является нейронной сетью. Без функций активации нейронная сеть могла бы выполнять только линейные отображения от входов x к выходам y. Почему это так?

Без функций активации единственной математической операцией при прямом распространении будут точечные произведения между входным вектором и весовой матрицей. Поскольку произведение с одной точкой является линейной операцией, произведения с последовательными точками будут представлять собой не более чем несколько линейных операций, повторяемых одна за другой. А последовательные линейные операции можно рассматривать как одну операцию обучения.

Нейронная сеть без какой-либо функции активации не сможет математически реализовать такие сложные отображения и не сможет решать задачи, которые мы хотим, чтобы сеть решить.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...