У меня есть набор данных, содержащий только 500 образцов. Набор данных имеет три столбца
- Предложение1
- Предложение2
- 0 или 1 (для указания сходства).
Моя задача состояла в том, чтобы обучить кодировщик, который принимает в качестве входных данных два предложения и возвращает 1, если предложения похожи, и 0 в противном случае.
Я использую предварительно обученные вложения word2ve c в извлечь особенности. Моя модель достигла только 50% точности.
sent_in = Input(shape=(150, ))
sent_emb = Embedding(input_dim=vocab_size, output_dim=300, weights=[E],)(sent_in)
conv1 = Conv1D(32, 5, activation='relu', padding='same')(sent_emb)
pool1 = MaxPooling1D(2)(conv1)
conv2 = Conv1D(64, 5, activation='relu', padding='same')(pool1)
pool2 = MaxPooling1D(2)(conv2)
conv3 = Conv1D(128, 5, activation='relu', padding='same')(pool2)
flat1 = Flatten()(conv3)
sent_in2 = Input(shape=(150, ))
sent_emb2 = Embedding(input_dim=vocab_size, output_dim=300, weights=[E],)(sent_in2)
conv4 = Conv1D(32, 5, activation='relu', padding='same')(sent_emb2)
pool3 = MaxPooling1D(2)(conv4)
conv5 = Conv1D(64, 5, activation='relu', padding='same')(pool3)
pool4 = MaxPooling1D(2)(conv5)
conv6 = Conv1D(128, 5, activation='relu', padding='same')(pool4)
flat2 = Flatten()(conv6)
concatenated = concatenate([flat1, flat2])
dense1 = Dense(32, activation='relu')(concatenated)
out = Dense(1, activation='sigmoid')(dense1)
model = Model(inputs=[sent_in,sent_in2], outputs=out)
model.summary()
Моя сеть показана на рисунке ниже
![My Network](https://i.stack.imgur.com/1miXV.jpg)
Вопросы:
1) Должен ли каждый автоэнкодер иметь кодер и декодер?
2) Как повысить точность?