Должен ли блок кодера GRU быть сразу после встраивания в NMT учебник по тензорному потоку - PullRequest
0 голосов
/ 05 июня 2019

В учебнике внимания NMT по тензорному потоку я обнаружил, что положение блока GRU в декодере отличается от графика в учебнике.

Я также прочитал статью внимания https://arxiv.org/pdf/1409.0473.pdf. Если этот учебникЕсли использовать модель кодера-декодера RNN, то блок GRU должен сохранять тот же вес, что и кодер, а не только скрытый вектор.

# x shape after passing through embedding == (batch_size, 1, embedding_dim)
    x = self.embedding(x)

    # x shape after concatenation == (batch_size, 1, embedding_dim + hidden_size)
    x = tf.concat([tf.expand_dims(context_vector, 1), x], axis=-1)

    # passing the concatenated vector to the GRU
    output, state = self.gru(x)

    # output shape == (batch_size * 1, hidden_size)
    output = tf.reshape(output, (-1, output.shape[2]))

    # output shape == (batch_size, vocab)
    x = self.fc(output)

В руководстве по тензорному вниманию NMT (веб-страница https://www.tensorflow.org/alpha/tutorials/text/nmt_with_attention#write_the_encoder_and_decoder_model), класс декодера положенвход для встраивания. Затем встраиваемый текст просто объединяется с вектором контекста внимания. Сцепленный вводится в GRU после конкатенации. Однако согласно графику на странице красные блоки являются единицами GRU. После того, как единицы GRU вычисляют встраиваемый текст вскрытый вектор и его вывод. Затем мы объединяем выходной вектор GRU с вектором контекста. Наконец, слой FC передаст объединенный вектор в слово результата. Я хотел бы спросить, почему учебник хочет, чтобы модуль GRU был после конкатенации,а этот блок ГРУ в декодере должен быть suceed от блока GRU кодера.

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...