В трансформаторе с обнимающимися поверхностями , можно использовать предварительно обученную языковую модель GPT2-XL. Но я не нахожу, на каком наборе данных он обучается? Это та же обученная модель, которую OpenAI использовал для своей бумаги (обученной на наборе данных 40 ГБ под названием webtext)?
webtext
Модель GPT2-XL является самой большой из четырех архитектур, подробно описанных в документе, который вы связали (параметры 1542M). Он обучается на тех же данных, что и остальные три, о котором вы упоминаете в WebText.