Модель, которую я реализую, имеет набор параметров a1, ..., aH, которые соответствуют взвешиванию предыдущих результатов.Это реализуется посредством умножения матрицы, которая выглядит следующим образом:
a1 0 0 0 0 ...
a2 a1 0 0 0 ...
a3 a2 a1 0 0 ...
: : : : :
В текущей реализации а сохраняются в одномерном nn.parameter.Parameter
с H записями, из которых матрица строится во время каждой пересылки.проходить.Градиент матрицы автоматически распространяется на параметры через autograd.
Однако для этого необходимо заново строить матрицу при каждом следующем проходе.Можно ли сделать так, чтобы сама матрица была параметром, но связать веса вдоль основной диагонали и нижней диагонали так, чтобы это было эквивалентно построению ее из вектора параметров?