В настоящее время я пытаюсь реализовать Deepmask ( Ссылка на документ FAIR ) с помощью Pytorch, поэтому до сих пор я определил функцию потери потерь в соединении, а также обучаемые параметры модели и прямой проход.
Я работал на этапе обучения, и поскольку в документе говорится, что обучение должно проводиться альтернативным способом обратного распространения по двум ветвям , я написал код для этого же.
Но есть некоторая проблема с обучением, я пытался обучить модель с поддельным набором данных (случайно сгенерированным набором данных), для мини-пакетов, отличных от первой мини-партии, потеря моделиполучается nan .
В чем может быть причина nan потерь?
Ссылка на текущую версию моего кода