Почему функция активации gated (используемая в Wavenet) работает лучше, чем ReLU? - PullRequest
2 голосов
/ 09 мая 2019

Я недавно читал статьи Wavenet и PixelCNN, и в обоих из них упоминается, что использование стробированных функций активации работает лучше, чем ReLU.Но ни в одном из случаев они не дают объяснения, почему это так.

Я спрашивал на других платформах (например, на r / machinelearning), но до сих пор не получил ни одного ответа.Может быть, они просто (случайно) попробовали эту замену, и она дала благоприятные результаты?

Функция для справки: y = tanh (Wk, f ∗ x).σ (Wk, g ∗ x)

Поэлементное умножение сигмовидной и танховой свертки.

1 Ответ

2 голосов
/ 09 мая 2019

Я немного покопался и еще немного поговорил с другом, который указал мне на статью Дауфина и др.и др.о "Языковом моделировании с помощью закрытых сверточных сетей".Он предлагает хорошее объяснение по этой теме в разделе 3 статьи:

LSTM обеспечивают долговременную память через отдельную ячейку, контролируемую входом и забывающими воротами.Это позволяет информации проходить беспрепятственно через потенциально многократные шаги.Без этих элементов информация может легко исчезнуть из-за преобразований каждого временного шага.

Напротив, сверточные сети не страдают от одного и того же вида исчезающего градиента, и мы находим экспериментально, что они не требуют забывающих элементов.Поэтому мы рассматриваем модели, имеющие исключительно выходные ворота, которые позволяют сети контролировать, какая информация должна распространяться через иерархию слоев.

Другими словами, это означает, что они приняли концепцию вороти применил их к последовательным сверточным слоям, чтобы контролировать, какой тип информации пропускается, и, очевидно, это работает лучше, чем использование ReLU.

edit: Но ПОЧЕМУ это работает лучше, явсе еще не знаю, если бы кто-нибудь мог дать мне хотя бы отдаленно интуитивный ответ, я был бы признателен, я осмотрелся еще немного, и, очевидно, мы все еще основываем свое суждение на пробах и ошибках.

...