Я пытаюсь добавить слой CNN поверх существующей архитектуры модели Google BERT для точной настройки набора данных SQUAD2.0.
Код в основном run_squad.py , куда я вставилa Depthwise CNN 1D post Уровень встраивания.
Архитектура выглядит следующим образом:
- Уровень вложения (768 затемн.) →
- Отделение по глубине CNN (128 затемн.) →
- Кодер (128 dim) → Слой прогнозирования диапазона.
Проблема заключается в том, что при использовании контрольной точки модели BERT появляется несоответствие размеров, что очевидно, поскольку модель имеет скрытый размер768 в архитектуре BERT.
Как я могу разместить промежуточный уровень CNN? Любые предложения будут оценены.