Я выбрал в общей сложности 24478 данных описания живописных мест из 237 категорий для тонкой настройки BERT-базы, и средняя потеря осталась около 5. В частности, объем данных для каждой категории меньше или равен 200, искорость обучения: 10-6 или 10-7.Другие гиперпараметры согласуются с оригинальным экспериментом BERT.Какие факторы могут привести к тому, что потери не сойдутся?
Я выбрал 800 новостных данных из 10 категорий из общедоступных новостных данных, установленных в качестве учебного набора.После 10 эпох обучения со скоростью обучения 10-5, модель достигает 97% достоверности на 400 тестовых образцах.После проверки правильности метода, я выбрал в общей сложности 3050 данных описания живописных мест из 14 категорий для точной настройки BERT-базы.После 10 эпох обучения со скоростью обучения 10-6, потеря обучения приближается к 0,5, и модель достигает 83% достоверности на 230 тестовых образцах (потеря не уменьшается при скорости обучения 10-5).