Выходной диапазон сигмоидальной модели моей модели сократился после точной настройки с набором данных для конкретного домена. Моя сохраненная модель имеет выходной диапазон от 0 до 1.После точной настройки с меньшим набором данных определенного домена выходной диапазон модели составляет примерно от 0,25 до 0,6. .Что не так с этой моделью? Я покажу некоторые ключевые методы и коды моего обучения, пожалуйста, помогите. Спасибо
- Моя цель - научить модель оценивать, насколько предложение подходит для запроса.
- Итак, я обучил модель LTR (обучение ранжированию) с большим набором данных. Я использую BERT (модель с предварительным обучением nlp) для обучения модели LM. BERT используется для извлечения особенности предложений. Затем я отображаю вывод BERT на одно число, используя линейный слой. Наконец, я использую сигмовидную функцию для создания диапазона вывода. От 0 до 1. Так что в конечном итоге я делаю функцию счета следующим образом:
функция оценки
оценка предложения = сигмоид (Линейный (Берт (запрос, предложение)))
Модель:
model_output = оценка (q, a) -счет (q, b)
- О наборе данных, он состоит из попарного запроса и предложений.
О потере функции, это как потеря шарнира.
Потеря = 1/2 * сумма (квадрат (макс (0, Тау (score_func (запрос, Sena) -score_func (запрос, senB))))
это также можно записать как
потеря = 1/2 * сумма (квадрат (max (0, tau - model_output)))
Тау - это минус разрыв двух предложений двух предложений. Я все время использую ** тау = 0,1 **.
- После обучения модели LM я использую набор тестовых данных для оценки модели. Выходной диапазон модели составляет от 0 до 1.
- Затем я использую меньший набор данных конкретной области для тонкой настройки модели. Наконец, я использую тот же набор тестовых данных, что и выше, чтобы оценить эту точно настроенную модель, у меня изменился диапазон выходных данных модели. Это примерно от 0,25 до 0,6.
Итак, похоже, что точная настройка с набором данных относительной области сжимает выходной диапазон модели. Почему это произошло?
Полагаю, выходной диапазон исходной модели должен иметь то же распределение, что и его точная настройка.