Мне кажется, что активация Relu часто бывает чрезвычайно эффективной. А утечка relu решает ее главный недостаток (умирающие блоки).
Так, за исключением выходных слоев, требующих tanh, soft max или sigmoid. Есть ли причина, по которой я не хотел бы использовать дырявое реле? (Я знаю, что relu в вычислительном отношении быстрее, чем дырявый relu, но на лучшую модель стоит потратить немного больше времени)