Question

Я просмотрел статью Внимание - это все, что вам нужно и, хотя я думаю, что понял общую идею происходящего, я довольно запутался в способе обработки ввода. Вот мои сомнения, и для простоты, давайте предположим, что речь идет о задаче перевода языка.

1) В статье говорится, что входное вложение имеет размерность 512, что будет вектором вложения каждого слова. во входном предложении верно? Поэтому, если входное предложение имеет длину 25, тогда входное значение будет иметь размерную матрицу 25 * 512 на каждом слое?

2) Использует ли эта модель фиксированный "MAX_LENGTH" во всех своих пакетах? Под этим я подразумеваю определить самое длинное предложение в вашем обучающем наборе и дополнить все остальные предложения, чтобы они равнялись MAX_LENGTH?

3) Если во 2-м вопросе действительно используется концепция MAX_LENGTH, как один процесс обрабатываетзапрос времени теста длиннее входного запроса?

Я также сослался на это видео, чтобы лучше понять https://www.youtube.com/watch?v=z1xs9jdZnuY и один из кадров, который дает общее представление об одном отдельном слоес 3-мя мультиголовочными внимания это

здесь вы можете видеть, что вход имеет размерность 4 * 3 (для простого представления размер вложения равен 3, а конечный результат равен одномуслой внимания и сеть прямой связи также 4 * 3).

Максимальная длина последовательности в Seq2Seq - внимание это все, что вам нужно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Максимальная длина последовательности в Seq2Seq - внимание это все, что вам нужно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы