Я пытаюсь реализовать модель, которая использует кодирование из нескольких предварительно обученных моделей BERT для разных наборов данных и получает комбинированное представление с использованием полностью связанного слоя. В этом я хочу, чтобы модели BERT оставались фиксированными, и только полностью подключенные слои должны проходить обучение. Возможно ли добиться этого в объятиях-трансформерах? Я не вижу никакого флага, который позволил бы мне сделать это.
PS: я не хочу go путем сброса кодирования входов для каждой модели BERT и использования их в качестве входов.