Хорошо, у вас достаточно данных для обучения модели, поэтому я думаю, что структура модели может привести к чему-то подобному, попробуйте структуру модели, показанную ниже, и скажите, работает ли она:
input = Input layer
model = Embedding layer
model = Bidirectional layer
model = TimeDistributed
model = Flatten
model = Dense(100,activation='relu')(model)
output = Dense(3,activation='softmax')(model)
model = Model(input,output)
, а затем попробуйте чтобы скомпилировать модель с использованием оптимизатора Adam, и на выходе использовать активацию softmax, которая, как я догадываюсь, будет иметь некоторое влияние c, если не использовалось до