Обычно по умолчанию используется коэффициент отсева 0.5
, который я также использую в своей полностью подключенной сети.Этот совет следует рекомендациям из оригинальной статьи Dropout (Hinton at al).
Моя сеть состоит из полностью связанных слоев размером
[1000, 500, 100, 10, 100, 500, 1000, 20]
.
Я не применяю выпадение к последнему слою.Но я применяю его к слою с горлышком бутылки размером 10. Это не кажется разумным, учитывая, что dropout = 0.5
.Я думаю, что много информации теряется.Есть ли эмпирическое правило, как обрабатывать слои горлышка бутылки при использовании отсева?Лучше ли увеличить размер горлышка бутылки или уменьшить количество выбывших?