Я пытаюсь использовать BERT
для задачи NER
.Чтобы добиться лучших результатов прогнозирования, я пытаюсь заменить позиционное встраивание в функцию embedding_postprocessor()
некоторыми предварительно рассчитанными результатами, основанными на принципе sinusoidal embedding
, представленном в статье "Attention is all you need"
.
Несмотря на то, что примерно через 20 hours training
модель, похоже, достигает хорошей сходимости (потери снижаются до 10 ^ -2 или 10 ^ -3), результаты тестирования были довольно плохими, с точностью около 20% -30%.
Кто-нибудь пытался заменить positional embedding
из BERT
другими методами реализации?Будет ли идея использования sinusoidal embedding
работать в BERT
?или мы можем придерживаться только positional embedding
в BERT
?