Интуитивно понятно, что ваша проблема похожа на «как получить хорошее представление предложения», за исключением того, что в наши дни вы также можете использовать маркер классификации предложения, чтобы получить представление предложения в большинстве моделей на основе преобразователя. Однако такой токен недоступен для представлений на уровне токена.
В вашем случае, я думаю, есть несколько вариантов, но из того, что я видел, люди чаще всего используют либо среднее, либо максимальное значение. Другими словами: возьмите среднее значение ваших подслов слов или максимальные значения. По моему мнению, усреднение является наиболее интуитивным началом.
Обратите внимание, что средние значения - это всего лишь среднее значение по последовательности. Это подразумевает, что оно не является сверхточным (одно высокое и одно низкое значение будет иметь то же среднее значение, что и два средних значения), но, вероятно, оно наиболее простое.