Я пытался создать свои собственные нейронные сети с нуля. Через некоторое время я сделал это, но столкнулся с проблемой, которую не могу решить. Я следую учебнику , который показывает, как это сделать. Проблема, с которой я столкнулся, заключалась в том, как моя сеть обновляет весы и смещения. Ну, я знаю, что градиентный спуск не всегда будет уменьшать потери, и в течение нескольких эпох он может даже немного увеличиться, но все равно он должен уменьшиться и работать намного лучше, чем у меня. Иногда весь процесс застревает в потерях 9 и 13 и не может выйти из него. Я проверил много учебников, видео и веб-сайтов, но я не нашел ничего плохого в своем коде. self.activate
, self.dactivate
, self.loss
и self.dloss
:
# sigmoid
self.activate = lambda x: np.divide(1, 1 + np.exp(-x))
self.dactivate = lambda x: np.multiply(self.activate(x), (1 - self.activate(x)))
# relu
self.activate = lambda x: np.where(x > 0, x, 0)
self.dactivate = lambda x: np.where(x > 0, 1, 0)
# loss I use (cross-entropy)
clip = lambda x: np.clip(x, 1e-10, 1 - 1e-10) # it's used to squeeze x into a probability between 0 and 1 (which I think is required)
self.loss = lambda x, y: -(np.sum(np.multiply(y, np.log(clip(x))) + np.multiply(1 - y, np.log(1 - clip(x))))/y.shape[0])
self.dloss = lambda x, y: -(np.divide(y, clip(x)) - np.divide(1 - y, 1 - clip(x)))
Код, который я использую для прямого распространения:
self.activate(np.dot(X, self.weights) + self.biases) # it's an example for first hidden layer
И это код для обратного распространения:
Первая часть, в DenseNeuralNetwork
классе:
last_derivative = self.dloss(output, y)
for layer in reversed(self.layers):
last_derivative = layer.backward(last_derivative, self.lr)
И вторая часть, в Dense
классе:
def backward(self, last_derivative, lr):
w = self.weights
dfunction = self.dactivate(last_derivative)
d_w = np.dot(self.layer_input.T, dfunction) * (1./self.layer_input.shape[1])
d_b = (1./self.layer_input.shape[1]) * np.dot(np.ones((self.biases.shape[0], last_derivative.shape[0])), last_derivative)
self.weights -= np.multiply(lr, d_w)
self.biases -= np.multiply(lr, d_b)
return np.dot(dfunction, w.T)
Я также сделал repl , чтобы вы могли проверить весь код и запустить его без проблем.