LSTM имеет четыре разных входа. 1. Строб запоминания 2. Строб запоминания 3. Строб оценки 4. Выход строба
У них такое же уравнение, кроме факта, что строб оценки. Очень любопытно, как они стали настраивать свои собственные функции. Забытые врата настраиваются так, чтобы хорошо забыть бессмысленные слова с низкой вероятностью. Напротив, ворота запоминания настраиваются так, чтобы хорошо запоминать правдоподобные слова с высокой вероятностью.
Как только я догадался, что, возможно, некоторые специальные функции потерь назначены для каждого элемента и, как оптимизатор уменьшит потери, эти элементы будут настроенык своим собственным ролям. Однако недавно я подумал, что модель LSTM просто использует кросс-энтропию для функции потерь в задаче прогнозирования следующего предложения, или что модель LSTM в некоторой степени не имеет отношения к функции потерь.
Заранее спасибо.
Структура ячейки LSTM и уравнение