Я работаю над моделью NER (Распознавание именованных объектов), используя двунаправленный RNN LSTM, построенный с Keras для набора данных CoNLL-2003. Я использую предварительно вычисленные вложения слов длиной 200, соединенные с встраиваниями для части речи, фразы и заглавных букв. Но я получаю плохие прогнозы. Я уже пробовал разное количество слоев, разные размеры для скрытых векторов, разные скорости отсева и разные скорости обучения, но все это не сильно влияет на результаты.
Вот как выглядят почти все кривые потерь:
А вот показатели:
Есть ли у кого-нибудь идея, почему RNN ведет себя так? Я благодарен за любой намек, где можно решить проблему. Если вам нужна дополнительная информация, дайте мне знать.
Спасибо, Крис