Я пытаюсь реализовать AWD-LSTM и поэтому хотел бы понять применяемые методы отсева из [здесь] [1]. Я не очень четко понимаю использование параметров input_p
, weight_p
и hidden_p
. Мне кажется, они предполагают вероятность замены каждого компонента выбранного вектора вложения с 0 , вероятностью замены каждого веса для всех рекуррентных матриц с 0 и вероятностью замены каждый компонент вектора обновления (полученный после умножения результата tanh-слоя на выходной уровень входного слоя) соответственно, но я сильно сомневаюсь, действительно ли это так. Может ли кто-нибудь уточнить свои определения?