Question

При использовании RNN (LSTM / GRU) мы передаем длину входной последовательности, чтобы ограничить развертывание последовательности. Так, например, если фактическая длина последовательности равна 8 и дополнена двумя дополнительными токенами, скрытое состояние 8-го токена копируется в 9-й и 10-й токен.

Как рассчитывается оценка внимания по длинам дополненной последовательности? Разве 8-й, 9-й и 10-й токены не дают одинаковый вклад?

Оценки внимания для дополненных токенов с переменной длиной входной последовательности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Оценки внимания для дополненных токенов с переменной длиной входной последовательности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы