Distil-GPT2 баллы за недоумение - PullRequest
0 голосов
/ 25 апреля 2020

Я смотрю на страницу моделей Distil * на обнимашемся github: https://github.com/huggingface/transformers/tree/master/examples/distillation

В тексте написано:

Мы применили тот же метод к другим архитектурам Transformer и выпустили весовые коэффициенты:

GPT2: в тесте WikiText-103 GPT2 достигает недоумения на тестовом наборе 16,3 по сравнению с 21,1 для DistilGPT2 (после тонкой настройки в поезде).

Но в нем также говорится, что дистиллят - это дистиллированная версия GPT2-small. Но, согласно оригинальной статье gpt2, оценка за небольшую версию составляет 37.50. Это недоумение имеет смысл только для самой большой версии gpt2. Поэтому я чувствую себя очень смущенным. Вы тоже тренировали дистиллированную версию gpt2-xl?

...