Используя данные обучения для тонкой настройки BERT-базы, потери не уменьшаются - PullRequest
0 голосов
/ 09 июля 2019

Я выбрал в общей сложности 24478 данных описания живописных мест из 237 категорий для тонкой настройки BERT-базы, и средняя потеря осталась около 5. В частности, объем данных для каждой категории меньше или равен 200, искорость обучения: 10-6 или 10-7.Другие гиперпараметры согласуются с оригинальным экспериментом BERT.Какие факторы могут привести к тому, что потери не сойдутся?

Я выбрал 800 новостных данных из 10 категорий из общедоступных новостных данных, установленных в качестве учебного набора.После 10 эпох обучения со скоростью обучения 10-5, модель достигает 97% достоверности на 400 тестовых образцах.После проверки правильности метода, я выбрал в общей сложности 3050 данных описания живописных мест из 14 категорий для точной настройки BERT-базы.После 10 эпох обучения со скоростью обучения 10-6, потеря обучения приближается к 0,5, и модель достигает 83% достоверности на 230 тестовых образцах (потеря не уменьшается при скорости обучения 10-5).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...