Обучение нейронной сети: биполярный XOR - PullRequest
2 голосов
/ 16 ноября 2010

Я пытаюсь научить нейронную сеть из 2 входов, 4 скрытых узлов (все в одном слое) и 1 выходного узла.Бинарное представление работает нормально, но у меня проблемы с биполярным.Я не могу понять, почему, но общая ошибка иногда сходится к одному и тому же числу около 2.xx.У меня сигма 2 / (1+ exp (-x)) - 1. Возможно, я сигмоидально не в том месте.Например, чтобы вычислить ошибку вывода, нужно ли сравнивать сигмоидальный выход с ожидаемым значением или с сигмоидальным ожидаемым значением?

Я следил за этим сайтом здесь: http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html, но они используют разные функцииЗатем я был проинструктирован для использования.Даже когда я пытался реализовать их функции, я сталкивался с той же проблемой.В любом случае, я застрял примерно половину времени под одним и тем же номером (другое число для разных реализаций).Пожалуйста, скажите мне, если я где-то допустил ошибку в моем коде или это нормально (я не понимаю, как это может быть).Импульс установлен в 0. Является ли это общей проблемой 0 импульса?Функции ошибок, которые мы должны использовать:

, если пользовательский интерфейс является единицей вывода

Error(i) = (Ci - ui ) * f'(Si )

, если пользовательский интерфейс является скрытой единицей

Error(i) = Error(Output) * weight(i to output) * f'(Si)

public double sigmoid( double x ) {
    double fBipolar, fBinary, temp;
    temp = (1 + Math.exp(-x));
    fBipolar = (2 / temp) - 1;
    fBinary = 1 / temp;
    if(bipolar){
        return fBipolar;
    }else{
        return fBinary;
    }

}

// Initialize the weights to random values.
private void initializeWeights(double neg, double pos) { 
    for(int i = 0; i < numInputs + 1; i++){
        for(int j = 0; j < numHiddenNeurons; j++){
            inputWeights[i][j] = Math.random() - pos;
            if(inputWeights[i][j] < neg || inputWeights[i][j] > pos){
                print("ERROR ");
                print(inputWeights[i][j]);
            }
        }
    }
    for(int i = 0; i < numHiddenNeurons + 1; i++){
        hiddenWeights[i] = Math.random() - pos;
        if(hiddenWeights[i] < neg || hiddenWeights[i] > pos){
            print("ERROR ");
            print(hiddenWeights[i]);
        }
    }
}

// Computes output of the NN without training. I.e. a forward pass
public double outputFor ( double[] argInputVector ) { 
    for(int i = 0; i < numInputs; i++){
        inputs[i] = argInputVector[i];
    }
    double weightedSum = 0;
    for(int i = 0; i < numHiddenNeurons; i++){
        weightedSum = 0;
        for(int j = 0; j < numInputs + 1; j++){
            weightedSum += inputWeights[j][i] * inputs[j];
        }
        hiddenActivation[i] = sigmoid(weightedSum); 
    }

    weightedSum = 0;
    for(int j = 0; j < numHiddenNeurons + 1; j++){
        weightedSum += (hiddenActivation[j] * hiddenWeights[j]);
    }

    return sigmoid(weightedSum);
}

    //Computes the derivative of f
public static double fPrime(double u){
    double fBipolar, fBinary;
    fBipolar = 0.5 * (1 - Math.pow(u,2));
    fBinary = u * (1 - u);
    if(bipolar){
        return fBipolar;
    }else{
        return fBinary;
    }
}

// This method is used to update the weights of the neural net.
public double train ( double [] argInputVector, double argTargetOutput ){
    double output = outputFor(argInputVector);
    double lastDelta;

    double outputError = (argTargetOutput - output) * fPrime(output);

    if(outputError != 0){
        for(int i = 0; i < numHiddenNeurons + 1; i++){
            hiddenError[i] = hiddenWeights[i] * outputError * fPrime(hiddenActivation[i]);
            deltaHiddenWeights[i] = learningRate * outputError * hiddenActivation[i] + (momentum * lastDelta);
            hiddenWeights[i] += deltaHiddenWeights[i];
        }

        for(int in = 0; in < numInputs + 1; in++){
            for(int hid = 0; hid < numHiddenNeurons; hid++){
                lastDelta = deltaInputWeights[in][hid];
                deltaInputWeights[in][hid] = learningRate * hiddenError[hid] * inputs[in] + (momentum * lastDelta); 
                inputWeights[in][hid] += deltaInputWeights[in][hid];
            }
        }
    }

    return 0.5 * (argTargetOutput - output) * (argTargetOutput - output);
}

1 Ответ

3 голосов
/ 16 ноября 2010

Общие комментарии кодирования:

initializeWeights(-1.0, 1.0);

может не получить начальные значения, которые вы ожидали.

initializeWeights, вероятно, должен иметь:

inputWeights[i][j] = Math.random() * (pos - neg) + neg;
// ...
hiddenWeights[i] = (Math.random() * (pos - neg)) + neg; 

вместо:

Math.random() - pos;

чтобы это работало:

initializeWeights(0.0, 1.0);

и дает вам начальные значения от 0,0 до 1,0, а не от -1,0 до 0,0.

lastDelta используется до того, как объявлено:

deltaHiddenWeights[i] = learningRate * outputError * hiddenActivation[i] + (momentum * lastDelta);

Я не уверен, нужны ли + 1 на numInputs + 1 и numHiddenNeurons + 1.

Не забудьте следить за округлением целых: 5/2 = 2, а не 2,5! Вместо этого используйте 5.0 / 2.0. В общем случае добавьте .0 в ваш код, когда результат должен быть двойным.

Самое главное, вы достаточно долго обучали NeuralNet?

Попробуйте запустить его с numInputs = 2, numHiddenNeurons = 4, learningRate = 0,9 и тренироваться 1000 или 10000 раз.

Использование numHiddenNeurons = 2 иногда приводит к зависанию при попытке решить проблему XOR.

См. Также Проблема XOR - симуляция

...