Могу ли я использовать кодировщик BERT с метками моделирования языка и маской причинного внимания? - PullRequest
0 голосов
/ 30 апреля 2020

Мне интересно, могу ли я использовать архитектуру BERT для обучения языковой модели. BertForMaskedLM включает параметр lm_labels для выполнения языкового моделирования. Это будет продолжать использовать архитектуру кодировщика, поэтому нет перекрестного внимания. Это был бы кодировщик, выполняющий языковое моделирование с маской причинного внимания, чтобы он мог только заботиться о прошлом. Если это возможно, чем это отличается от GPT2 (кроме незначительных изменений, таких как выполнение остаточной нормализации перед активацией)?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...