Если [CLS] BERT можно переподготовить для различных целей классификации предложений, как быть с [SEP]? - PullRequest
1 голос
/ 24 февраля 2020

При предварительном обучении BERT токен [CLS] внедряется во вход классификатора, которому поручено задание Предсказание следующего предложения (или, в некоторых вариантах BERT, с другими заданиями, такими как Предсказание порядка предложений ALBERT); это помогает в предварительной подготовке всего трансформатора, а также помогает сделать положение [CLS] легкодоступным для переобучения для других задач «шкалы предложений».

Интересно, можно ли также переучивать [SEP] в таким же образом. В то время как [CLS], вероятно, будет легче переучить, так как преобразователь уже обучен наполнять свое вложение смыслом через предложение, в то время как [SEP] не имеет этих «соединений» (можно было бы предположить), это все равно может работать с достаточным количеством тонкая настройка.

С этим можно переобучить одну и ту же модель для двух разных задач классификации, одна с помощью [CLS], а другая с [SEP].

Я что-то пропустил? Есть ли причина, почему это не будет работать?

1 Ответ

2 голосов
/ 25 февраля 2020

Теоретически он может дать «некоторые» результаты, чтобы он работал (это просто знак), но вопрос в том, почему вы хотите этого. Эти токены были предварительно обучены для конкретной c цели. Я полагаю, что под «переобучением» вы подразумеваете тонкую настройку, поэтому, если вы вдруг настроите маркер SEP внезапно в качестве классификационного токена, я думаю, что вы не получите хороших результатов, потому что вы настраиваете только один токен во всей языковой модели для задание, для которого он даже не был подготовлен.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...