Что означает документация copy_initial_weights в более высокой библиотеке для Pytorch? - PullRequest
8 голосов
/ 20 февраля 2020

Я пытался использовать высшую библиотеку для мета-обучения, и у меня были проблемы с пониманием того, что означает copy_initial_weights. В документах говорится:

copy_initial_weights - если true, весовые коэффициенты исправленного модуля копируются для формирования начальных весов исправленного модуля и, следовательно, не являются частью ленты градиента при развертывании исправленного модуля. , Если для этого параметра установлено значение False, фактические веса модулей будут исходными весами исправленного модуля. Это полезно, например, при выполнении MAML.

, но для меня это не имеет большого смысла из-за следующего:

Например, "веса исправленного модуля" скопированы для формирования начальных весов пропатченного модуля "для меня не имеет смысла, потому что когда менеджер контекста инициирован, пропатченный модуль еще не существует. Поэтому неясно, что мы копируем и откуда (и почему копирование - это то, что мы хотим сделать).

Кроме того, «развертывание пропатченного модуля» не имеет смысла для меня. Обычно мы разворачиваем граф вычислений, вызванный для l oop. Исправленный модуль - это просто нейронный net, который был изменен этой библиотекой. Развертывание неоднозначно.

Кроме того, не существует технического определения для «градиентной ленты».

Кроме того, когда вы описываете, что такое false, говорить, что это полезно для MAML, на самом деле не полезно потому что он даже не намекает, почему он полезен для MAML.

В целом, невозможно использовать менеджер контекста.

Любые объяснения и примеры того, что делает этот флаг в более точных терминах, будут быть действительно ценной

pytorch forum: https://discuss.pytorch.org/t/what-does-copy-initial-weights-do-in-the-higher-library/70384

1 Ответ

0 голосов
/ 10 мая 2020

Эта страница github содержит большое подробное объяснение.

Подводя итог, если вы установите copy_initial_weights = True, это означает, что перед входом в соответствующий менеджер контекста параметры автоматически копируется.

При оптимизации мета-параметров также будут затронуты параметры целевой модели. copy_inital_weights следует использовать для предотвращения случайного воздействия на исходные параметры модели во время тренировки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...