Question

В трансформаторе с обнимающимися поверхностями , можно использовать предварительно обученную языковую модель GPT2-XL. Но я не нахожу, на каком наборе данных он обучается? Это та же обученная модель, которую OpenAI использовал для своей бумаги (обученной на наборе данных 40 ГБ под названием webtext)?

Lysandre · Answer 1 · 11 февраля 2020

Модель GPT2-XL является самой большой из четырех архитектур, подробно описанных в документе, который вы связали (параметры 1542M). Он обучается на тех же данных, что и остальные три, о котором вы упоминаете в WebText.

Размер обучающих данных предварительно обученной модели GPT2-XL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Размер обучающих данных предварительно обученной модели GPT2-XL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы