Короткий ответ: Да, возможно.
Чтобы объяснить это более подробно, нам нужно взглянуть на документ , стоящий за реализацией: В Таблице 1 вы можете ясно увидеть, что большинство их сгенерированных заголовков на намного короче того, что вы пытаетесь инициализировать. Хотя это само по себе не может быть индикатором того, что вы не могли генерировать что-либо дольше, мы можем go еще глубже и посмотреть на значение [unusedX]
токенов, как описано в BERT dev Jacob Devlin :
Поскольку [токены [unusedX]
] не использовались, они фактически случайным образом инициализируются.
Далее, В итоговой статье описывается
Вложения позиции в исходной модели BERT имеют максимальную длину 512; мы преодолеваем это ограничение, добавляя дополнительные позиции em-beddings, которые инициализируются случайным образом и точно настраиваются с другими параметрами в кодере.
Это сильный показатель того, что после определенной длины они, скорее всего, возвращаются к инициализации по умолчанию, которая, к сожалению, случайна. Вопрос в том, можете ли вы все еще спасти предыдущую предварительную тренировку и просто точно настроить свою цель, или лучше начинать с нуля.