Я думаю, что это в значительной степени указатель на пути улучшения вашей модели. Для быстрого создания прототипов и более быстрого обучения, безусловно, предпочтителен метод объединения, так как он имеет немного меньше вычислений и проще для понимания, а также «проверенный послужной список» для хороших результатов в задачах классификации.
Насколько я понимаю осознавая, что, несмотря на комментарии в документации, я не могу вспомнить какие-либо немедленные результаты, в которых усреднение вложений было намного лучше, чем простое объединение по токену [CLS]
для задачи классификации. По моему мнению, усреднение, вероятно, также сделало бы распространение градиента немного более непоследовательным, поскольку поток теперь делится на несколько головок вместо одной [CLS]
, что потенциально приводит к обнулению градиента для более длинных последовательностей (это чисто теоретическое предположение и я не могу подтвердить это фактическими результатами).
Вы правы, что это немного противоречиво, и я надеялся, что они предложат вторичную модель, которая может сделать это в ближайшее время, но, возможно, это ваш шанс внести свой вклад в открытый исходный код; -)