Я строю ванильную нейронную сеть с нуля, используя NumPy, и проверяю производительность модели для различных функций активации. Мне особенно интересно посмотреть, как функция активации «Maxout» повлияет на производительность моей модели.
После некоторого поиска я не смог найти реализацию в NumPy, за исключением их определения (https://ibb.co/kXCpjKc).). Формула для прямого распространения ясна, где я бы взял max (Z) (где Z = wT * x + b). Но их производная, которую я буду использовать при обратном распространении, мне не ясна.
Что означает j = argmax (z) в этом контексте? Как мне реализовать это в NumPy?
Любая помощь будет высоко ценится! Спасибо!