Я пытаюсь реализовать AWD-LSTM и поэтому хотел бы убедиться, что я правильно понимаю методы отсева. Я прочитал статью и документацию fastai, но все еще сомневаюсь, правильно ли я ее понял.
Внедрение dropout (embed_p) - вероятность замены встраивания слова нулевым вектором.
Input dropout (input_p ) - вероятность замены каждого компонента выбранного вектора вложения на 0.
Выпадение веса (weight_p) - вероятность замены каждого веса для всех рекуррентных матриц на 0.
Скрытый (рекуррентный) Dropout (hidden_p) - вероятность замены каждого компонента вектора обновления (получена после умножения результата tanh слоя на выходной слой входного слоя.
Имена получены от здесь .
Дал ли я правильные определения всем видам выбывших?