Question

Я пытаюсь реализовать модель, которая использует кодирование из нескольких предварительно обученных моделей BERT для разных наборов данных и получает комбинированное представление с использованием полностью связанного слоя. В этом я хочу, чтобы модели BERT оставались фиксированными, и только полностью подключенные слои должны проходить обучение. Возможно ли добиться этого в объятиях-трансформерах? Я не вижу никакого флага, который позволил бы мне сделать это.

PS: я не хочу go путем сброса кодирования входов для каждой модели BERT и использования их в качестве входов.

sv_jan5 · Answer 1 · 28 апреля 2020

Простое решение для этого - просто исключить параметры, относящиеся к модели BERT, при передаче оптимизатору.

param_optimizer = [x for x in param_optimizer if 'bert' not in x[0]]
optimizer = AdamW(param_optimizer, lr)

Как сохранить модель во время тренировки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сохранить модель во время тренировки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы