Я знаю, что скрытое состояние токена CLS можно рассматривать как представление всего предложения. Почему бы не использовать скрытое состояние последнего слова напрямую?
Заранее спасибо!