Имеет смысл, что объединенный вывод используется для анализа уровня предложения (например, классификация). Мне интересно, лучше ли встраивать уровень токенов для именованного объекта? Я бы так и думал, но не уверен, как взять вывод последовательности и манипулировать для NER. Должен ли я взять ломтик [:, :, -1]
для [batch_size, num_tokens, 768]
?