Различные модели делают пошаговую подгонку для модели RNN при настройке гиперпараметра - PullRequest
0 голосов
/ 12 ноября 2018

Я довольно новичок в глубоком обучении, и я изучал этот пример RNN .

После завершения урока я решил увидеть влияние различных гиперпараметров, таких как количество узлов в каждом слое, коэффициент выпадения и т. Д.

Для каждого значения в моих списках я создаю новую модель, используя набор параметров, и проверяю производительность в моем наборе данных. Ниже приведен основной код:

def build_model(MODELNAME, l1,l2,l3, l4, d):
    tf.global_variables_initializer() 
    tf.reset_default_graph()
    model = Sequential(name = MODELNAME)
    model.reset_states

    model.add(CuDNNLSTM(l1, input_shape=(x_train.shape[1:]), return_sequences=True) )
    model.add(Dropout(d))
    model.add(BatchNormalization())

    model.add(CuDNNLSTM(l2, input_shape=(x_train.shape[1:]), return_sequences=True) )

    # Definition of other layers of the model ...

    model.compile(loss="sparse_categorical_crossentropy",
                 optimizer=opt,
                 metrics=['accuracy'])

    history = model.fit(x_train, y_train,
                        epochs=EPOCHS,
                        batch_size=BATCH_SIZE,
                        validation_data=(x_validation, y_validation))
    return model

layer1 = [64, 128, 256]
layer2,3,4 = [...]
drop = [0.2, 0.3, 0.4]

config = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.4


for l1 in layer1:
     #for l2, l3, l4 for layer2, layer3, layer4  
        for d in drop:
            sess = tf.Session(config=config)
            set_session(sess)

            MODELNAME = 'RNN-l1={}-l2={}-l3={}-l4={}-drop={} '.format(l1, l2, l3, l4, d)
            print(MODELNAME)

            model = build_model(MODELNAME, l1,l2,l3, l4, d)
            sess.close()
            print('-----> training & validation loss & accuracies)

Проблема в том, что, когда новая модель строится с использованием новых параметров, она работает так, как если бы это была следующая эпоха предыдущей модели, а не эпоха 1 новой. Ниже приведены некоторые результаты.

RNN-l1=64-l2=64-l3=64-l4=32-drop=0.2 
Train on 90116 samples, validate on 4458 samples
Epoch 1/6
90116/90116 [==============================] - 139s 2ms/step - loss: 0.5558 - acc: 0.7116 - val_loss: 0.8857 - val_acc: 0.5213
... # results for other epochs
Epoch 6/6
RNN-l1=64-l2=64-l3=64-l4=32-drop=0.3 
90116/90116 [==============================] - 140s 2ms/step - loss: 0.5233 - acc: 0.7369 - val_loss: 0.9760 - val_acc: 0.5336
Epoch 1/6
90116/90116 [==============================] - 142s 2ms/step - loss: 0.5170 - acc: 0.7403 - val_loss: 0.9671 - val_acc: 0.5310
... # results for other epochs
90116/90116 [==============================] - 142s 2ms/step - loss: 0.4953 - acc: 0.7577 - val_loss: 0.9587 - val_acc: 0.5354
Epoch 6/6
90116/90116 [==============================] - 143s 2ms/step - loss: 0.4908 - acc: 0.7614 - val_loss: 1.0319 - val_acc: 0.5397
# -------------------AFTER 31TH SET OF PARAMETERS
RNN-l1=64-l2=256-l3=128-l4=32-drop=0.2
Epoch 1/6
90116/90116 [==============================] - 144s 2ms/step - loss: 0.1080 - acc: 0.9596 - val_loss: 1.8910 - val_acc: 0.5372

Как видно, первая эпоха 31-го набора параметров ведет себя так, как будто это 181-я эпоха. Точно так же, если я остановлю пробежку в одной точке и снова начну пробежку, точность и потеря будут выглядеть так, как будто это следующая эпоха, как показано ниже.

Epoch 1/6
90116/90116 [==============================] - 144s 2ms/step - loss: 0.1053 - acc: 0.9621 - val_loss: 1.9120 - val_acc: 0.5375

Я попробовал несколько вещей (как вы можете видеть в коде), таких как model=None, reinitializing the variables, resetting_status of the model, closing session in each iteration и т. Д., Но ничего не помогло. Я искал похожий вопрос без удачи.

Я пытаюсь понять, что я делаю неправильно. Любая помощь приветствуется,

Примечание: название не очень объяснительно, я открыт для предложений по улучшению названия.

1 Ответ

0 голосов
/ 13 ноября 2018

Похоже, вы используете настройку Keras, что означает, что вам нужно импортировать keras backend, а затем очистить этот сеанс перед запуском новой модели. Это было бы что-то вроде этого:

from keras import backend as K 
K.clear_session()
...