Сигмоид - это нелинейная функция активации, широко используемая в логистической регрессии и искусственных нейронных сетях. Если мы посмотрим на его реализацию Python,
import math
def sigmoid( x ):
return 1 / ( 1 + math.exp( -x ))
Если входы отрицательные, то выходы будут меньше 0,5. Если входы положительные, то выходы больше 0,5.
![Sigmoid Curve](https://i.stack.imgur.com/Rl4BZ.png)
Используется в машинном обучении:
В машинном обучении, , если мы склонны изучать взаимосвязь между некоторыми признаками и двоичным признаком, тогда мы используем сигмовидную функцию на выходном слое (которая производит выходные данные). Поскольку выходные значения находятся в диапазоне от 0 и 1, мы можем установить границу решения и определить, была ли метка 0 или 1.
Кроме того, они использовались в скрытых слоях Искусственных Нейронных Сетей. Сигмоид производит активацию на основе своих входных данных (из предыдущего слоя), которая затем умножается на весы последующего слоя для получения дальнейших активаций. Если Сигмоид перехватывает большее положительное значение, оно дает полностью насыщенный обжиг, равный 1. В случае небольшого отрицательного значения производится обжиг, равный 0. Следовательно, он генерирует значение активации на основе порога.
Кроме того, поскольку выходное значение находится в диапазоне от 0 до 1, его выходное значение можно интерпретировать как вероятность для определенного класса .
Некоторые особые проблемы с сигмоидом (и его заменой на ReLU):
Сигмоид страдает от проблемы исчезающего градиента. Градиенты
выходной NN по отношению к параметрам становятся такими маленькими,
что NN предпринимает меньшие шаги к минимумам потерь
функционировать и в конечном итоге перестать учиться.
Кроме того, чрезвычайно большие или меньшие значения отображаются на конечности, то есть 0 или 1, что не вызывает изменений в выходных данных модели с такими параметрами, как весовые коэффициенты и смещения.
Эта проблема была решена с помощью ReLU, который не подавляет входные сигналы (например, сигмовидную), и, следовательно, проблема исчезающего градиента была решена.