Я пытаюсь понять концепцию модели внимания. В настоящее время я изучаю статью «НЕЙРОННЫЙ ПЕРЕВОД МАШИНЫ СОВМЕСТНЫМ ОБУЧЕНИЕМ ВЫРАВНИВАНИЯ И ПЕРЕВОДА» (ссылка: https://arxiv.org/pdf/1409.0473.pdf). Мне нужно кое-что прояснить по этому разделу:
Мне не совсем ясно о некоторых вещах, и мне нужна помощь, чтобы подтвердить, понимаю ли я это или нет.
Вопрос:
- Является ли h_j n-мерным вектором, поступающим из кодера, соответствующим j-му временному шагу / j-му состоянию, где n - размерность вектора вложения ?
- Является ли s_ (i-1) n-мерным вектором, исходящим из предыдущего состояния декодера, где n - размерность вектора вложения?
- Что такое лог c за размером матрицы U_a, равным n * 2n? Если размерность h_j равна n, не будет ли это проблемой, если мы попытаемся умножить матрицу * 2n dim на вектор n-dim?