Как обсуждалось в соответствующем потоке Github , распад не влияет на саму переменную lr
, которая используется только для хранения начального значения скорости обучения. Чтобы распечатать распавшееся значение, вам необходимо явно вычислить его самостоятельно и сохранить в отдельной переменной lr_with_decay
; вы можете сделать это, используя следующий обратный вызов:
class MyCallback(Callback):
def on_epoch_end(self, epoch, logs=None):
lr = self.model.optimizer.lr
decay = self.model.optimizer.decay
iterations = self.model.optimizer.iterations
lr_with_decay = lr / (1. + decay * K.cast(iterations, K.dtype(decay)))
print(K.eval(lr_with_decay))
как описано здесь и здесь . Фактически, указанный здесь фрагмент кода c, то есть
lr = self.lr
if self.initial_decay > 0:
lr *= (1. / (1. + self.decay * K.cast(self.iterations, K.dtype(self.decay))))
происходит непосредственно из исходного кода Keras для Adadelta .
Как видно из проверка связанного исходного кода, интересующий здесь параметр снижения скорости обучения - decay
, а не rho
; Несмотря на то, что термин «распад» используется также для описания rho
в документации , это другой распад, не имеющий ничего общего со скоростью обучения:
rho : float> = 0. Коэффициент затухания Ададелты, соответствующий доле градиента, сохраняемой на каждом временном шаге.