Я сейчас переписываю модель TRACX2 , разновидность рекуррентной нейронной сети, используемой для обучения кодировок в контексте сегментации слов из непрерывной речи или текста. Автор исходного кода вручную написал сеть в Numpy, а я хочу оптимизировать ее с помощью Pytorch. Однако они реализуют то, что они называют «температурой» и «смещением по Фалману»:
\ frac {d (tanh (x)))} {dx} = температура * (1 - tanh ^ 2 (x)))) + fahlmanOffset
Это явно не фактическая производная от tanh (x), одной из их функций активации, но вместо этого они использовали эту производную. Как я могу go реализовать эту модификацию в Pytorch?