В настоящее время я работаю над проектом по обнаружению «мягких» функций. Эти особенности, как правило, трудно обнаружить, так как они маленькие и не имеют четкой текстуры или краев. Кроме того, как и в любом «реальном» наборе данных, он относительно небольшой. Первые несколько эпох обучения, как правило, находятся в состоянии стагнации и, глядя на карты активации функций (GRAD-CAM), у модели возникают проблемы с ориентацией на «реальные» области интересов. Следовательно, я подозревал, что это может быть связано с проблемой «умирающего оттока» (у модели есть проблемы с поиском «правильных» областей, на которых нужно сосредоточиться, и эти связанные веса «убиты» / модель решает перейти в другие области)
Изменение активации с ReLU на сигмовидную, а затем на ELU, кажется, очень помогает (как с точки зрения точности проверки, так и фокусировки на основе тепловых карт).
Мне было интересно, смогу ли я сделать еще один шаг, чтобы использовать активацию, которая также решает проблему взрывающихся градиентов (возможно, что-то вроде дырявого сигмоида или дырявого ReLU-6), но я не могу найти что-нибудь подобное в Интернете.
Спасибо:)