● Пусть X - матрица выборок с формой (n, d)
, где n
обозначает количество выборок, а d
обозначает количество признаков.
● Пусть w h1 - матрица весов - формы (d, h1)
и
● Пусть b h1 - вектор смещения формы (1, h1)
.
Для распространения вперед и назад необходимы следующие шаги:
► РАСПРОСТРАНЕНИЕ РАСПРОСТРАНЕНИЯ:
⛶ Шаг 1:
Z h1 = [X • w h1 ] + b h1
↓ ↓ ↓ ↓
(n,h1)
(n,d)
(d,h1)
(1,h1)
Здесь символ • представляет матрицуумножение, а h1
обозначает количество скрытых единиц в первом скрытом слое.
⛶ Шаг 2:
Позвольте Φ () - функция активации.Мы получаем.
a h1 = Φ (Z h1 )
↓ ↓
(n,h1)
(n,h1)
⛶ Шаг 3:
Получить новые веса и уклоны:
● w h2 формы (h1, h2)
и
● b h2 формы (1, h2)
.
110 Шаг 4:
Z h2 = [a h1 • w h2 ] + b h2
↓ ↓ ↓ ↓
(n,h2)
(n,h1)
(h1,h2)
(1,h2)
Здесь, h2
- количество скрытых элементов во втором скрытом слое.
⛶ Шаг 5:
a h2 = Φ (Z h2 )
↓ ↓
(n,h2)
(n,h2)
⛶ Шаг 6:
Получить новые веса и уклоны:
● w out формы (h2, t)
и
● b out формы (1, t)
.
Здесь t
- количество классов.
⛶ Шаг 7:
Z out = [a h2 • w out ] + b out
↓ ↓ ↓ ↓
(n,t)
(n,h2)
(h2,t)
(1,t)
⛶ Шаг 8:
a out = Φ (Z out )
↓ ↓
(n,t)
(n,t)
► ЗАДНЕЕ РАСПРОСТРАНЕНИЕ:
⛶ Шаг 1:
Построить закодированную матрицу из горячих кодов уникальнойклассы вывода ( y one-hot ).
Ошибка out = a out - y горячая
↓ ↓ ↓
(n,t)
(n,t)
(n,t)
⛶ Шаг 2:
Δw out = η (a h2 T • Ошибка out )
↓ ↓ ↓
(h2,t)
(h2,n)
(n,t)
Δb out = η [∑ i = 1 n (ошибка out, i )]
↓ ↓
(1,t)
(1,t)
Here η - скорость обучения.
w out = w out - Δw out (обновление веса.)
b out = b out - Δb out (обновление смещения)
⛶ Шаг3:
Ошибка 2 = [Ошибка out • w out T ] ✴ Φ / (a h2 )
↓ ↓ ↓ ↓
(n,h2)
(n,t)
(t,h2)
(n,h2)
Здесь символ ✴ обозначает поэлементное умножение матриц.Символ Φ / представляет производную сигмоидальной функции.
⛶ Шаг 4:
Δw h2 = η ( h1 T • Ошибка 2 )
↓ ↓ ↓
(h1,h2)
(h1,n)
(n,h2)
Δb h2 = η [∑ i = 1 n (ошибка 2, i )]
↓ ↓
(1,h2)
(1,h2)
ш h2 = ш h2 - Δw h2 (весовое обновление.)
b h2 = b h2 - Δb h2 (смещениеобновление.)
⛶ Шаг 5:
Ошибка 3 = [Ошибка 2 • w h2 T ] ✴ Φ / (a h1 )
↓ ↓ ↓↓
(n,h1)
(n,h2)
(h2,h1)
(n,h1)
⛶ Шаг 6:
Δw h1 = η (X T • Ошибка 3 )
↓ ↓ ↓
(d,h1)
(d,n)
(n,h1)
Δb h1 = η [∑ i = 1 n (ошибка 3, i )]
↓ ↓
(1,h1)
(1,h1)
ш х1 = ш х1 - Δw h1 (весовое обновление.)
b h1 = b h1 - Δb h1 (обновление смещения.)