Я использую BERT в Tensorflow, и есть одна деталь, которую я не совсем понимаю. Согласно документации (https://tfhub.dev/google/bert_uncased_L-12_H-768_A-12/1), объединенный вывод представляет собой всю последовательность. Исходя из оригинальной статьи, кажется, что это вывод для токена "CLS" в начале сеанса.
pooled_output[0]
Однако, когда я смотрю на вывод, соответствующий первому токену в предложение
setence_output[0,0,:]
, которое, как я считаю, соответствует токену "CLS" (первый токен в предложении), результаты 2 разные.