Как обратное распространение в CNN работает для предварительно обученного встраивания в текстовую классификацию - PullRequest
0 голосов
/ 26 марта 2019

Как работает функция потерь в случае предварительно обученных вложений word2vec, поскольку веса не обновляются во время обучения. Затем, как работает обратный проход и что он обновляет для прогнозирования?

1 Ответ

0 голосов
/ 27 марта 2019

Потеря - это расчет выходов вероятности и фактических классов, этот расчет не зависит от состояния тренировки любых последующих слоев.Под статусом я имею в виду trainable == True или trainable == False .

Обратное распространение потери используется в сочетании со скоростью обучения до корректируйте вес слоя, только если статус trainable == True .Ошибка все еще может проходить через эти слои, если между необучаемыми слоями есть обучаемые слои.Любые слои в вашей модели, которые «поддаются обучению», будут обновляться после каждого шага обучения.

При использовании Word2Vec веса импортируются в слой внедрения и много раз «замораживаются», чтобы не обновляться, пока остальныеиз параметров обучены.Однако к концу этого процесса иногда размораживание может привести к лучшим результатам.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...