Я внедряю иерархическую сеть внимания для классификации проверок IMDB, сеть работает нормально, в среднем ~ 90% при классификации проверок pos / neg и 40% - по 8 классам.
Однако, когдаЯ попытался вывести вес внимания, который соответствует каждому слову в предложении, он всегда показывает, что он уделяет первому слову предложения наибольшее внимание (обычно значительно больше, чем остальные).Это говорит о том, что слой внимания не работает должным образом.Кто-нибудь сталкивался с такой проблемой раньше?Какую инициализацию я должен использовать для слоя внимания?
Спасибо!