Оценки внимания для дополненных токенов с переменной длиной входной последовательности - PullRequest
1 голос
/ 05 мая 2019

При использовании RNN (LSTM / GRU) мы передаем длину входной последовательности, чтобы ограничить развертывание последовательности. Так, например, если фактическая длина последовательности равна 8 и дополнена двумя дополнительными токенами, скрытое состояние 8-го токена копируется в 9-й и 10-й токен.

Как рассчитывается оценка внимания по длинам дополненной последовательности? Разве 8-й, 9-й и 10-й токены не дают одинаковый вклад?

...