При предварительном обучении BERT токен [CLS] внедряется во вход классификатора, которому поручено задание Предсказание следующего предложения (или, в некоторых вариантах BERT, с другими заданиями, такими как Предсказание порядка предложений ALBERT); это помогает в предварительной подготовке всего трансформатора, а также помогает сделать положение [CLS] легкодоступным для переобучения для других задач «шкалы предложений».
Интересно, можно ли также переучивать [SEP] в таким же образом. В то время как [CLS], вероятно, будет легче переучить, так как преобразователь уже обучен наполнять свое вложение смыслом через предложение, в то время как [SEP] не имеет этих «соединений» (можно было бы предположить), это все равно может работать с достаточным количеством тонкая настройка.
С этим можно переобучить одну и ту же модель для двух разных задач классификации, одна с помощью [CLS], а другая с [SEP].
Я что-то пропустил? Есть ли причина, почему это не будет работать?