Question

Мне интересно, могу ли я использовать архитектуру BERT для обучения языковой модели. BertForMaskedLM включает параметр lm_labels для выполнения языкового моделирования. Это будет продолжать использовать архитектуру кодировщика, поэтому нет перекрестного внимания. Это был бы кодировщик, выполняющий языковое моделирование с маской причинного внимания, чтобы он мог только заботиться о прошлом. Если это возможно, чем это отличается от GPT2 (кроме незначительных изменений, таких как выполнение остаточной нормализации перед активацией)?

Могу ли я использовать кодировщик BERT с метками моделирования языка и маской причинного внимания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Могу ли я использовать кодировщик BERT с метками моделирования языка и маской причинного внимания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы