Вклад в внимание в руководстве TensorFlow 2.0 «Нейронный машинный перевод со вниманием» - PullRequest
0 голосов
/ 30 октября 2019

Возник один вопрос, когда я выучил пример «Нейронный машинный перевод со вниманием» .

class Decoder(tf.keras.Model):
  def __init__(self, vocab_size, embedding_dim, dec_units, batch_sz):
    super(Decoder, self).__init__()
    self.batch_sz = batch_sz
    self.dec_units = dec_units
    self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
    self.gru = tf.keras.layers.GRU(self.dec_units,
                                   return_sequences=True,
                                   return_state=True,
                                   recurrent_initializer='glorot_uniform')
    self.fc = tf.keras.layers.Dense(vocab_size)

    # used for attention
    self.attention = BahdanauAttention(self.dec_units)

  def call(self, x, hidden, enc_output):
    # enc_output shape == (batch_size, max_length, hidden_size)
    context_vector, attention_weights = self.attention(hidden, enc_output)

    # x shape after passing through embedding == (batch_size, 1, embedding_dim)
    x = self.embedding(x)

    # x shape after concatenation == (batch_size, 1, embedding_dim + hidden_size)
    x = tf.concat([tf.expand_dims(context_vector, 1), x], axis=-1)

    # passing the concatenated vector to the GRU
    output, state = self.gru(x)

    # output shape == (batch_size * 1, hidden_size)
    output = tf.reshape(output, (-1, output.shape[2]))

    # output shape == (batch_size, vocab)
    x = self.fc(output)

    return x, state, attention_weights

Почему вес внимания рассчитывается по encoder_output и encoder_hidden ивектор контекста связывается с decoder_embedding. По моему мнению, вес внимания должен быть рассчитан как encoder_output и каждый скрытый от decoder_output, а контекстный вектор должен быть связан с decoder_output.

Может быть, я не полностью понял seq2seq?

1 Ответ

0 голосов
/ 30 октября 2019

Внимание обращается на каждый шаг декодера. Входные данные для шага декодера:

  • ранее декодированный токен x (или токен наземной истины во время обучения)
  • предыдущее скрытое состояние декодера hidden
  • скрытые состояния кодера enc_output

Как вы правильно сказали, внимание скрытых состояний одного декодера и всех скрытых состояний кодера в качестве входных данных дает вам контекстvector.

context_vector, attention_weights = self.attention(hidden, enc_output)

Вектор контекста сцепляется с вложением только после вызова механизма внимания, когда он используется в качестве входа ячейки GRU.

x = tf.concat([tf.expand_dims(context_vector, 1), x], axis=-1)
output, state = self.gru(x)

Переменная output станет hidden на следующем шаге декодера.

...