Я написал один здесь , что, на мой взгляд, действительно очень просто. Ох, что, черт возьми. Я просто перепишу код здесь.
function layer2 = xornn2(iters)
if nargin < 1
iters = 50
end
T = [0 1 1 0];
X = [0 0 1 1; 0 1 0 1; 1 1 1 1];
m = size(T,2);
inputsz = size(X,1)-1;
hiddensz = 3;
outputsz = size(T,1);
theta1 = randn(hiddensz, 1+inputsz);
theta2 = randn(outputsz, 1+hiddensz);
for i = [1:iters]
layer1 = [logsig(theta1 * X); ones(1,m)];
layer2 = logsig(theta2 * layer1);
delta2 = T - layer2;
delta1 = layer1 .* (1-layer1) .* (theta2' * delta2);
% remove the bias from delta 1. There's no real point in a delta on the bias.
delta1 = delta1(1:(end-1),:);
theta2d = delta2 * layer1';
theta1d = delta1 * X';
theta1 = theta1 + 0.1 * theta1d;
theta2 = theta2 + 0.1 * theta2d;
end
end
Случайная инициализация может быть улучшена. (Я бы сделал это sqrt (6 ./ (fanin + fanout)) ... (Это из статьи Йошуа Бенжио ..) Но, в принципе, это работает .. Попробуйте это, например, с xornn (10000). Вы должны быть в состоянии изменить hiddensz на что угодно> = 2.