У меня есть простая сеть LSTM, которая выглядит примерно так:
lstm_activation = tf.nn.relu
cells_fw = [LSTMCell(num_units=100, activation=lstm_activation),
LSTMCell(num_units=10, activation=lstm_activation)]
stacked_cells_fw = MultiRNNCell(cells_fw)
_, states = tf.nn.dynamic_rnn(cell=stacked_cells_fw,
inputs=embedding_layer,
sequence_length=features['length'],
dtype=tf.float32)
output_states = [s.h for s in states]
states = tf.concat(output_states, 1)
Мой вопрос Когда я не использую активацию (активации = нет) или использую tanh, все работает, но когда я переключаю relu, у меня постоянно появляется «потеря NaN во время тренировки», почему это так? Воспроизводится на 100%.