Предыдущий слой имеет размер вложения (V clasess, K -outputdim) - я хочу ввести размер матрицы весов K x T. Веса будут обучаемыми (как и вложения). Они генерируют матрицу VxT, которая будет использоваться в нисходящем направлении ,
1) Как я могу пойти по этому поводу?
2) Будет ли этот беспорядок с градиентами?
Это в основном вектор x Matrix.
Пример - вложение vocab = 10, dim K = 4. так что для конкретного члена словаря мои веса вложения - это размер вектора (1,4) (думаю, вектор строки).
Для каждого вектора строки я хочу умножить весовую матрицу размером 4x10, получив 1 x 10 вектор (или слой). Весовая матрица является общей для всех членов словаря.
Этот вектор 1 x 10 будет введен для следующего слоя.