Question

Я пытаюсь реализовать AWD-LSTM и поэтому хотел бы понять применяемые методы отсева из [здесь] [1]. Я не очень четко понимаю использование параметров input_p, weight_p и hidden_p. Мне кажется, они предполагают вероятность замены каждого компонента выбранного вектора вложения с 0 , вероятностью замены каждого веса для всех рекуррентных матриц с 0 и вероятностью замены каждый компонент вектора обновления (полученный после умножения результата tanh-слоя на выходной уровень входного слоя) соответственно, но я сильно сомневаюсь, действительно ли это так. Может ли кто-нибудь уточнить свои определения?

AWD-LSTM отсева

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

AWD-LSTM отсева

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы