Я немного покопался и еще немного поговорил с другом, который указал мне на статью Дауфина и др.и др.о "Языковом моделировании с помощью закрытых сверточных сетей".Он предлагает хорошее объяснение по этой теме в разделе 3 статьи:
LSTM обеспечивают долговременную память через отдельную ячейку, контролируемую входом и забывающими воротами.Это позволяет информации проходить беспрепятственно через потенциально многократные шаги.Без этих элементов информация может легко исчезнуть из-за преобразований каждого временного шага.
Напротив, сверточные сети не страдают от одного и того же вида исчезающего градиента, и мы находим экспериментально, что они не требуют забывающих элементов.Поэтому мы рассматриваем модели, имеющие исключительно выходные ворота, которые позволяют сети контролировать, какая информация должна распространяться через иерархию слоев.
Другими словами, это означает, что они приняли концепцию вороти применил их к последовательным сверточным слоям, чтобы контролировать, какой тип информации пропускается, и, очевидно, это работает лучше, чем использование ReLU.
edit: Но ПОЧЕМУ это работает лучше, явсе еще не знаю, если бы кто-нибудь мог дать мне хотя бы отдаленно интуитивный ответ, я был бы признателен, я осмотрелся еще немного, и, очевидно, мы все еще основываем свое суждение на пробах и ошибках.