Размер обучающих данных предварительно обученной модели GPT2-XL - PullRequest
0 голосов
/ 11 февраля 2020

В трансформаторе с обнимающимися поверхностями , можно использовать предварительно обученную языковую модель GPT2-XL. Но я не нахожу, на каком наборе данных он обучается? Это та же обученная модель, которую OpenAI использовал для своей бумаги (обученной на наборе данных 40 ГБ под названием webtext)?

1 Ответ

0 голосов
/ 11 февраля 2020

Модель GPT2-XL является самой большой из четырех архитектур, подробно описанных в документе, который вы связали (параметры 1542M). Он обучается на тех же данных, что и остальные три, о котором вы упоминаете в WebText.

...