При использовании RNN (LSTM / GRU) мы передаем длину входной последовательности, чтобы ограничить развертывание последовательности. Так, например, если фактическая длина последовательности равна 8 и дополнена двумя дополнительными токенами, скрытое состояние 8-го токена копируется в 9-й и 10-й токен.
Как рассчитывается оценка внимания по длинам дополненной последовательности? Разве 8-й, 9-й и 10-й токены не дают одинаковый вклад?