Максимальная длина последовательности в Seq2Seq - внимание это все, что вам нужно - PullRequest
0 голосов
/ 02 ноября 2019

Я просмотрел статью Внимание - это все, что вам нужно и, хотя я думаю, что понял общую идею происходящего, я довольно запутался в способе обработки ввода. Вот мои сомнения, и для простоты, давайте предположим, что речь идет о задаче перевода языка.

1) В статье говорится, что входное вложение имеет размерность 512, что будет вектором вложения каждого слова. во входном предложении верно? Поэтому, если входное предложение имеет длину 25, тогда входное значение будет иметь размерную матрицу 25 * 512 на каждом слое?

2) Использует ли эта модель фиксированный "MAX_LENGTH" во всех своих пакетах? Под этим я подразумеваю определить самое длинное предложение в вашем обучающем наборе и дополнить все остальные предложения, чтобы они равнялись MAX_LENGTH?

3) Если во 2-м вопросе действительно используется концепция MAX_LENGTH, как один процесс обрабатываетзапрос времени теста длиннее входного запроса?

Я также сослался на это видео, чтобы лучше понять https://www.youtube.com/watch?v=z1xs9jdZnuY и один из кадров, который дает общее представление об одном отдельном слоес 3-мя мультиголовочными внимания это enter image description here

здесь вы можете видеть, что вход имеет размерность 4 * 3 (для простого представления размер вложения равен 3, а конечный результат равен одномуслой внимания и сеть прямой связи также 4 * 3).

...