Бинарная классификация NN с неверным прогнозированием выходного слоя Softmax - PullRequest
0 голосов
/ 17 января 2019

Краткое описание:

  1. Когда я запускаю свою сеть без функции активации на ее выходном слое и с функцией потери softmax_cross_entropy_with_logits_v2, все ее прогнозируемые значения являются отрицательными и не похожи на мои классы быстрого вывода (которые равны 0 или 1), что не ' не имеет смысла для меня. Мне кажется, что было бы целесообразно, чтобы сама сеть выводила вероятности, равные 1, но я не уверен, как этого добиться, не используя softmax в качестве функции активации моего выходного уровня.

Уже ответили:

  1. Когда я использую softmax в качестве выходного класса и cost = tf.reduce_mean(-tf.reduce_sum(y * tf.cast(tf.log(prediction), tf.float32), [1])) в качестве функции потерь (как указано в прилагаемом вопросе), моя сеть выводит все предсказания [nan, nan]
  2. Когда я попробовал softmax на выходном слое и функцию потерь softmax_cross_entropy_with_logits_v2 вместе, все мои прогнозы были одинаковыми [0, 1] или [1, 0].

Более длинная версия:

Мои данные имеют вид:

enter image description here У меня есть следующая модель, которая пытается выполнить двоичную классификацию, используя выходной узел измерения 2.

def neural_network_model(data):

hidden_1_layer = {'weights': tf.Variable(tf.random_normal([n_features, n_nodes_hl1])),
                'biases': tf.Variable(tf.random_normal([n_nodes_hl1]))}
hidden_2_layer = {'weights': tf.Variable(tf.random_normal([n_nodes_hl1, n_nodes_hl2])),
                'biases': tf.Variable(tf.random_normal([n_nodes_hl2]))}
hidden_3_layer = {'weights': tf.Variable(tf.random_normal([n_nodes_hl2, n_nodes_hl3])),
                'biases': tf.Variable(tf.random_normal([n_nodes_hl3]))}
output_layer = {'weights':tf.Variable(tf.random_normal([n_nodes_hl3, n_classes])),
                'biases':tf.Variable(tf.random_normal([n_classes]))}

l1 = tf.add(tf.matmul(data, hidden_1_layer['weights']), hidden_1_layer['biases'])
l1 = tf.nn.relu(l1)

l2 = tf.add(tf.matmul(l1, hidden_2_layer['weights']), hidden_2_layer['biases'])
l2 = tf.nn.relu(l2)

l3 = tf.add(tf.matmul(l2, hidden_3_layer['weights']), hidden_3_layer['biases'])
l3 = tf.nn.relu(l3)
# output shape -- [batch_size, 2]
# example output = [[0.63, 0.37], 
#                   [0.43, 0.57]]
output = tf.add(tf.matmul(l3, output_layer['weights']), output_layer['biases'])
softmax_output = tf.nn.softmax(output)

return softmax_output, output

и я тренирую его, используя функцию ниже:

def train_neural_network(x):

softmax_prediction, regular_prediction = neural_network_model(x)

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(logits=softmax_prediction, labels=y))
# cost = tf.reduce_mean(-tf.reduce_sum(y * tf.cast(tf.log(prediction), tf.float32), [1]))
optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(cost)

per_epoch_correct = tf.equal(tf.argmax(softmax_prediction, 1), tf.argmax(y, 1))
accuracy = tf.reduce_mean(tf.cast(per_epoch_correct, tf.float32))

hm_epochs = 5000
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    pred = []
    for epoch in range(hm_epochs):
        acc = 0
        epoch_loss = 0
        i = 0
        while i < len(X_train)-9:
            start_index = i
            end_index = i + batch_size

            batch_x = np.array(X_train[start_index:end_index])
            batch_y = np.array(y_train[start_index:end_index])

            _ , c, acc, pred = sess.run([optimizer, cost, accuracy, softmax_prediction], feed_dict={x: batch_x, y:batch_y})
            epoch_loss += c
            i += batch_size
        print(pred[0])
        print('Epoch {} completed out of {} loss: {:.9f} accuracy: {:.9f}'.format(epoch+1, hm_epochs, epoch_loss, acc))

    # get accuracy

    correct = tf.equal(tf.argmax(softmax_prediction, 1), tf.argmax(y, 1))
    final_accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))
    print('Accuracy:', final_accuracy.eval({x:X_test, y:y_test})) 

Таким образом, моя сеть «работает» (как мне кажется?), Когда я запускаю ее без функции активации на выходном слое и с функцией потери softmax_cross_entropy_with_logits_v2. Тем не менее, когда я смотрю на его прогнозируемые значения, они все отрицательные и не похожи на мои классы с горячим выводом (которые равны 0 или 1), что не имеет смысла для меня. enter image description here

Кроме того, я просматривал этот вопрос относительно правильного использования функции softmax, и мне кажется целесообразным использовать softmax в качестве функции активации моего выходного слоя. Это потому, что у меня есть 2 выходных класса, и, таким образом, моя сеть может выводить вероятность суммирования каждого класса до 1. Однако, когда я использую softmax в качестве выходного класса и cost = tf.reduce_mean(-tf.reduce_sum(y * tf.cast(tf.log(prediction), tf.float32), [1])) в качестве функции потерь (как указано в прикрепленном вопросе) Моя сеть выводит все прогнозы [nan, nan]. Когда я попробовал softmax на выходном слое и функцию потерь softmax_cross_entropy_with_logits_v2, все мои прогнозы были одинаковыми [0, 1] или [1, 0]. Я попытался следовать рекомендациям в этом вопросе , но моя сеть с выводом softmax по-прежнему выводит только прогнозы всех [0, 1] или [1, 0].

В целом, я не уверен в том, как действовать, и я считаю, что я должен неправильно понимать, как должна быть структурирована эта сеть. Любая помощь будет оценена.

1 Ответ

0 голосов
/ 17 января 2019

Когда вы используете cross_entropy_with_logits_v2, важно, чтобы вы пропустили логит. Это называется logit к предыдущему значению перед применением softmax. Должно быть так:

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(logits=regular_prediction, labels=y))

Эта функция выполняет softmax, а затем cross_entropy. Это так, потому что, если они применяются отдельно в обратном распространении, вы можете иметь числовую нестабильность. Но при одновременном применении он упрощается при обратном распространении и становится на 100% стабильным.

EDIT: cross_entropy_with_logits_v2 - это слой, который выполняет следующие cross_entropy (softmax (x), y). Проблема в том, что в обратном направлении эта комбинация cross_entropy и затем softmax не является численно устойчивой. Вот почему вы получаете нанс. Когда оба они объединены, упрощение выполняется следующим образом: https://deepnotes.io/softmax-crossentropy

Если применить один, а затем другой, тензор потока не сможет упростить.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...