Веса первого слоя не меняются после тренировки при использовании Keras - PullRequest
1 голос
/ 27 апреля 2019

Некоторые люди обсуждали эту проблему раньше, но обычно они сходятся к исчезновению градиента в качестве корня этой проблемы.

Но в моей модели есть только два скрытых слоя, которые вряд ли застрянут при исчезновении градиента, как показано ниже:

from __future__ import print_function

import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import RMSprop

batch_size = 128
num_classes = 10
epochs = 20

(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255

y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

model = Sequential()
model.add(Dense(512, activation='relu', kernel_initializer='random_uniform',input_shape=(784,)))
model.add(Dropout(0.2))
model.add(Dense(512, kernel_initializer='random_uniform',activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(num_classes, kernel_initializer='random_uniform',activation='softmax'))


print (model.get_weights().__len__())
for i in range(6):
    print (str(i), "th layer shape: ", model.get_weights()[i].shape ,model.get_weights()[i].__len__(), "mean: ", np.mean(model.get_weights()[i]), "std dev: ", np.std(model.get_weights()[i]))
    print ("Before Training")
    print (model.get_weights()[i][0])


class LossHistory(keras.callbacks.Callback):
    def on_train_begin(self, logs={}):
        self.losses = []

    def on_batch_end(self, batch, logs={}):
        self.losses.append(logs.get('loss'))

batch_history = LossHistory()

model.summary()

model.compile(loss='categorical_crossentropy',
              optimizer=RMSprop(),
              metrics=['accuracy'])

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_test, y_test),
                    callbacks = [batch_history])

for i in range(6):
    print (str(i), "th layer shape: ", model.get_weights()[i].shape ,model.get_weights()[i].__len__(), "mean: ", np.mean(model.get_weights()[i]), "std dev: ", np.std(model.get_weights()[i]))
    print ("After Training Training")
    print (model.get_weights()[i][0])

Я сделал скриншот веса до / после тренировки. Таким образом, веса первого слоя не меняются после тренировки, но веса второго слоя меняются. (Я показываю только один раздел первой строки в матрице весов из-за большого количества параметров)

Первый слой: Перед тренировкой enter image description here

Первый слой: после тренировки enter image description here

Второй уровень: перед тренировкой enter image description here Второй уровень: после тренировки enter image description here

1 Ответ

0 голосов
/ 02 мая 2019

После некоторой отладки я понимаю, что матрица весов действительно изменилась после тренировки, хотя первая строка (на скриншоте) матрицы (784, 512) выглядит так, как будто никогда не менялась.

Причинаявляется то, что я использую предварительно обработанные данные mnist, которые представляют собой набор данных изображения цифр рукописного ввода, и только те части с чернилами будут кодироваться с определенными значениями RGB.Другими словами, эти крайние области - все '0'.Например, первая строка матрицы изображения 2d всегда равна 0.Таким образом, внутри матрицы весов первого скрытого слоя самая первая запись каждого из 512 векторов весов всегда будет обновляться с использованием (dJ / da_1) * (da_1 / dw_i1), тогда как (da_1 / dw_i1) = x_1, который равен '0 'во всех тренировочных образцах, как описано выше.поэтому он никогда не обновляется.

...