Я пытался использовать высшую библиотеку для мета-обучения, и у меня были проблемы с пониманием того, что означает copy_initial_weights
. В документах говорится:
copy_initial_weights - если true, весовые коэффициенты исправленного модуля копируются для формирования начальных весов исправленного модуля и, следовательно, не являются частью ленты градиента при развертывании исправленного модуля. , Если для этого параметра установлено значение False, фактические веса модулей будут исходными весами исправленного модуля. Это полезно, например, при выполнении MAML.
, но для меня это не имеет большого смысла из-за следующего:
Например, "веса исправленного модуля" скопированы для формирования начальных весов пропатченного модуля "для меня не имеет смысла, потому что когда менеджер контекста инициирован, пропатченный модуль еще не существует. Поэтому неясно, что мы копируем и откуда (и почему копирование - это то, что мы хотим сделать).
Кроме того, «развертывание пропатченного модуля» не имеет смысла для меня. Обычно мы разворачиваем граф вычислений, вызванный для l oop. Исправленный модуль - это просто нейронный net, который был изменен этой библиотекой. Развертывание неоднозначно.
Кроме того, не существует технического определения для «градиентной ленты».
Кроме того, когда вы описываете, что такое false, говорить, что это полезно для MAML, на самом деле не полезно потому что он даже не намекает, почему он полезен для MAML.
В целом, невозможно использовать менеджер контекста.
Любые объяснения и примеры того, что делает этот флаг в более точных терминах, будут быть действительно ценной
pytorch forum:
https://discuss.pytorch.org/t/what-does-copy-initial-weights-do-in-the-higher-library/70384