Я смотрю на страницу моделей Distil * на обнимашемся github: https://github.com/huggingface/transformers/tree/master/examples/distillation
В тексте написано:
Мы применили тот же метод к другим архитектурам Transformer и выпустили весовые коэффициенты:
GPT2: в тесте WikiText-103 GPT2 достигает недоумения на тестовом наборе 16,3 по сравнению с 21,1 для DistilGPT2 (после тонкой настройки в поезде).
Но в нем также говорится, что дистиллят - это дистиллированная версия GPT2-small. Но, согласно оригинальной статье gpt2, оценка за небольшую версию составляет 37.50. Это недоумение имеет смысл только для самой большой версии gpt2. Поэтому я чувствую себя очень смущенным. Вы тоже тренировали дистиллированную версию gpt2-xl?