Question

Некоторые люди обсуждали эту проблему раньше, но обычно они сходятся к исчезновению градиента в качестве корня этой проблемы.

Но в моей модели есть только два скрытых слоя, которые вряд ли застрянут при исчезновении градиента, как показано ниже:

from __future__ import print_function

import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import RMSprop

batch_size = 128
num_classes = 10
epochs = 20

(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255

y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

model = Sequential()
model.add(Dense(512, activation='relu', kernel_initializer='random_uniform',input_shape=(784,)))
model.add(Dropout(0.2))
model.add(Dense(512, kernel_initializer='random_uniform',activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(num_classes, kernel_initializer='random_uniform',activation='softmax'))


print (model.get_weights().__len__())
for i in range(6):
    print (str(i), "th layer shape: ", model.get_weights()[i].shape ,model.get_weights()[i].__len__(), "mean: ", np.mean(model.get_weights()[i]), "std dev: ", np.std(model.get_weights()[i]))
    print ("Before Training")
    print (model.get_weights()[i][0])


class LossHistory(keras.callbacks.Callback):
    def on_train_begin(self, logs={}):
        self.losses = []

    def on_batch_end(self, batch, logs={}):
        self.losses.append(logs.get('loss'))

batch_history = LossHistory()

model.summary()

model.compile(loss='categorical_crossentropy',
              optimizer=RMSprop(),
              metrics=['accuracy'])

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_test, y_test),
                    callbacks = [batch_history])

for i in range(6):
    print (str(i), "th layer shape: ", model.get_weights()[i].shape ,model.get_weights()[i].__len__(), "mean: ", np.mean(model.get_weights()[i]), "std dev: ", np.std(model.get_weights()[i]))
    print ("After Training Training")
    print (model.get_weights()[i][0])

Я сделал скриншот веса до / после тренировки. Таким образом, веса первого слоя не меняются после тренировки, но веса второго слоя меняются. (Я показываю только один раздел первой строки в матрице весов из-за большого количества параметров)

Первый слой: Перед тренировкой

Первый слой: после тренировки

Второй уровень: перед тренировкой Второй уровень: после тренировки

Jason · Answer 1 · 02 мая 2019

После некоторой отладки я понимаю, что матрица весов действительно изменилась после тренировки, хотя первая строка (на скриншоте) матрицы (784, 512) выглядит так, как будто никогда не менялась.

Причинаявляется то, что я использую предварительно обработанные данные mnist, которые представляют собой набор данных изображения цифр рукописного ввода, и только те части с чернилами будут кодироваться с определенными значениями RGB.Другими словами, эти крайние области - все '0'.Например, первая строка матрицы изображения 2d всегда равна 0.Таким образом, внутри матрицы весов первого скрытого слоя самая первая запись каждого из 512 векторов весов всегда будет обновляться с использованием (dJ / da_1) * (da_1 / dw_i1), тогда как (da_1 / dw_i1) = x_1, который равен '0 'во всех тренировочных образцах, как описано выше.поэтому он никогда не обновляется.

Веса первого слоя не меняются после тренировки при использовании Keras

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Веса первого слоя не меняются после тренировки при использовании Keras

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы