Слой ELMo с Keras - PullRequest
       42

Слой ELMo с Keras

0 голосов
/ 11 февраля 2019

Я использовал слой встраивания Keras по умолчанию с встраиванием слов в мою архитектуру.Архитектура выглядит следующим образом -

left_input = Input(shape=(max_seq_length,), dtype='int32')
right_input = Input(shape=(max_seq_length,), dtype='int32')

embedding_layer = Embedding(len(embeddings), embedding_dim, weights=[embeddings], input_length=max_seq_length,
                            trainable=False)

# Since this is a siamese network, both sides share the same LSTM
shared_lstm = LSTM(n_hidden, name="lstm")

left_output = shared_lstm(encoded_left)
right_output = shared_lstm(encoded_right)

Я хочу заменить слой внедрения на вложения ELMo.Поэтому я использовал пользовательский слой для встраивания - найденный в этом репозитории - https://github.com/strongio/keras-elmo/blob/master/Elmo%20Keras.ipynb. Уровень встраивания выглядит следующим образом -

class ElmoEmbeddingLayer(Layer):
def __init__(self, **kwargs):
    self.dimensions = 1024
    self.trainable=True
    super(ElmoEmbeddingLayer, self).__init__(**kwargs)

def build(self, input_shape):
    self.elmo = hub.Module('https://tfhub.dev/google/elmo/2', trainable=self.trainable,
                           name="{}_module".format(self.name))

    self.trainable_weights += K.tf.trainable_variables(scope="^{}_module/.*".format(self.name))
    super(ElmoEmbeddingLayer, self).build(input_shape)

def call(self, x, mask=None):
    result = self.elmo(K.squeeze(K.cast(x, tf.string), axis=1),
                  as_dict=True,
                  signature='default',
                  )['default']
    return result

def compute_mask(self, inputs, mask=None):
    return K.not_equal(inputs, '--PAD--')

def compute_output_shape(self, input_shape):
    return (input_shape[0], self.dimensions)

Я изменил архитектуру для нового слоя для встраивания.

 # The visible layer
left_input = Input(shape=(1,), dtype="string")
right_input = Input(shape=(1,), dtype="string")

embedding_layer = ElmoEmbeddingLayer()

# Embedded version of the inputs
encoded_left = embedding_layer(left_input)
encoded_right = embedding_layer(right_input)

# Since this is a siamese network, both sides share the same LSTM
shared_lstm = LSTM(n_hidden, name="lstm")

left_output = shared_gru(encoded_left)
right_output = shared_gru(encoded_right)

Но я получаю ошибку -

ValueError: Вход 0 несовместим со слоем lstm: ожидаемый ndim = 3, найденный ndim = 2

Что я делаюздесь не так?

Ответы [ 2 ]

0 голосов
/ 17 июля 2019

Я также использовал этот репозиторий в качестве руководства для построения модели CustomELMo + BiLSTM + CRF, и мне нужно было изменить поиск dict на «elmo» вместо «по умолчанию».Как указала Анна Крогагер, когда поиск dict равен 'default', вывод будет (batch_size, dim), что недостаточно для измерений LSTM.Однако, когда dict lookup равен ['elmo'], слой возвращает тензор правильных размеров, а именно формы (batch_size, max_length, 1024).

Пользовательский слой ELMo:

class ElmoEmbeddingLayer(Layer):
def __init__(self, **kwargs):
    self.dimensions = 1024
    self.trainable = True
    super(ElmoEmbeddingLayer, self).__init__(**kwargs)

def build(self, input_shape):
    self.elmo = hub.Module('https://tfhub.dev/google/elmo/2', trainable=self.trainable,
                           name="{}_module".format(self.name))

    self.trainable_weights += K.tf.trainable_variables(scope="^{}_module/.*".format(self.name))
    super(ElmoEmbeddingLayer, self).build(input_shape)

def call(self, x, mask=None):
    result = self.elmo(K.squeeze(K.cast(x, tf.string), axis=1),
                       as_dict=True,
                       signature='default',
                       )['elmo']
    print(result)
    return result

# def compute_mask(self, inputs, mask=None):
#   return K.not_equal(inputs, '__PAD__')

def compute_output_shape(self, input_shape):
    return input_shape[0], 48, self.dimensions

И модель построена следующим образом:

def build_model(): # uses crf from keras_contrib
    input = layers.Input(shape=(1,), dtype=tf.string)
    model = ElmoEmbeddingLayer(name='ElmoEmbeddingLayer')(input)
    model = Bidirectional(LSTM(units=512, return_sequences=True))(model)
    crf = CRF(num_tags)
    out = crf(model)
    model = Model(input, out)
    model.compile(optimizer="rmsprop", loss=crf_loss, metrics=[crf_accuracy, categorical_accuracy, mean_squared_error])
    model.summary()
    return model

Я надеюсь, что мой код будет вам полезен, даже если это не совсем та же модель.Обратите внимание, что я должен был закомментировать метод compute_mask, так как он выдает

InvalidArgumentError: Incompatible shapes: [32,47] vs. [32,0]    [[{{node loss/crf_1_loss/mul_6}}]]

, где 32 - размер пакета, а 47 - на единицу меньше, чем указанная мной max_length (вероятно, это означает, что он учитывает сам токен пэда).Я еще не выяснил причину этой ошибки, поэтому она может подойти вам и вашей модели.Однако я заметил, что вы используете GRU, и в хранилище остается нерешенная проблема с добавлением GRU.Так что мне любопытно, понимаешь ли ты это тоже.

0 голосов
/ 12 февраля 2019

Слой встраивания Elmo выводит одно вложение на каждый вход (таким образом, выходная форма равна (batch_size, dim)), тогда как ваш LSTM ожидает последовательность (то есть, форма (batch_size, seq_length, dim)).Я не думаю, что имеет смысл иметь слой LSTM после слоя встраивания Elmo, поскольку Elmo уже использует LSTM для встраивания последовательности слов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...