Является ли это хорошей моделью при создании с потерями валидации, остающимися ниже, чем кривая поезда, более или менее постоянный разрыв, поскольку оба уменьшаются? - PullRequest
0 голосов
/ 19 июня 2019

Добавление выпадающих слоев, при которых потери по вальцам остаются ниже, чем потери в поездах, является ли допустимым постоянный разрыв в обобщении в течение периода? The train and val loss curve

Вот архитектура:

tf.keras.layers.CuDNNLSTM(1024,input_shape=(9,41),return_sequences=True) ,
tf.keras.layers.BatchNormalization(),
tf.keras.layers.Dropout(0.4),
tf.keras.layers.CuDNNLSTM(512, return_sequences=True),
tf.keras.layers.BatchNormalization(),
tf.keras.layers.Dropout(0.4),
tf.keras.layers.CuDNNLSTM(256),
tf.keras.layers.BatchNormalization(),
tf.keras.layers.Dropout(0.4),
tf.keras.layers.Dense(3, activation=tf.nn.softmax)

Ответы [ 2 ]

1 голос
/ 19 июня 2019

Это нормально при использовании слоев Dropout, объяснение состоит в том, что, поскольку Dropout добавляет шум к процессу обучения, потери при обучении немного увеличиваются, а увеличенная мощность обобщения делает потери при проверке немного уменьшающимися, создавая этот инвертированный эффект.см.

И да, нормально иметь такой разрыв в обобщении.

0 голосов
/ 19 июня 2019

Всегда лучше подходить к интерпретации кривых потерь на основе их прогресса, независимо от того, лежит ли потеря при обучении выше потери при проверке или наоборот, или между ними лежит разумный разрыв. Совершенно нормально продолжать обучение, даже если потери при проверке превышают потери при обучении, и оба продолжают уменьшаться [до тех пор, пока потеря при проверке больше не оптимизируется дальше].

PS: всегда лучше использовать выпадение в более глубоких слоях, чем в неглубоких слоях, причина этого в принципе частичной декомпозиции информации, поскольку мелкие слои содержат синергетическую информацию, а более глубокие слои содержат уникальную и избыточную информацию.

...