Могут ли нейронные сети обрабатывать избыточные входы? - PullRequest
3 голосов
/ 25 апреля 2020

У меня есть полностью подключенная нейронная сеть со следующим количеством нейронов в каждом слое [4, 20, 20, 20, ..., 1]. Я использую TensorFlow, и 4 действительных значения соответствуют определенной точке в пространстве и времени, т.е. (x, y, z, t), а 1 действительное значение соответствует температуре в этой точке. Функция потерь - это просто среднеквадратичная ошибка между моей прогнозируемой температурой и фактической температурой в этой точке в (x, y, z, t). У меня есть набор точек тренировочных данных со следующей структурой для их входных данных:


(x, y, z, t):

(0.11,0.12,1.00,0.41)

(0,34,0,43,1,00,0,92)

(0,01,0,25,1,00,0,65)

...

(0,71,0.32, 1.00,0.49)

(0.31,0.22,1.00,0.01)

(0.21,0.13,1.00,0.71)


А именно, что вы заметите, что все обучающие данные имеют одинаковое избыточное значение в z, но x, y и t обычно не являются избыточными. Тем не менее, я обнаружил, что моя нейронная сеть не может тренироваться на этих данных из-за избыточности. В частности, каждый раз, когда я начинаю тренировать нейронную сеть, кажется, что она выходит из строя, и функция потери становится nan. Но если я изменю структуру нейронной сети так, чтобы число нейронов в каждом слое составляло [3, 20, 20, 20, ..., 1], т. Е. Теперь точки данных соответствуют только входу (x, y, t), все работает отлично, и обучение - это все правильно. Но есть ли способ преодолеть эту проблему? (Примечание: это происходит независимо от того, являются ли какие-либо переменные идентичными, например, x, y или t могут быть избыточными и вызывать эту ошибку.) Я также пытался использовать различные функции активации (например, ReLU) и изменять количество слоев и нейронов в сети, но эти изменения не решают проблему.

Мой вопрос: есть ли способ по-прежнему обучать нейронную сеть, сохраняя избыточный z в качестве входа? Так уж получилось, что конкретный набор данных для обучения, который я рассматриваю на данный момент, имеет все z избыточные данные, но в целом у меня будут данные, поступающие из разных z в будущем. Поэтому, в настоящее время ищется способ обеспечить нейронную сеть надежной обработкой входных данных.

Минимальный рабочий пример приведен ниже. При выполнении этого примера выходные данные о потерях равны nan, но если вы просто раскомментируете x_z в строке 12, чтобы убедиться, что теперь есть изменение в x_z, то проблем больше нет. Но это не решение, поскольку цель состоит в том, чтобы использовать исходный x_z со всеми постоянными значениями.

import numpy as np 
import tensorflow as tf

end_it = 10000 #number of iterations
frac_train = 1.0 #randomly sampled fraction of data to create training set
frac_sample_train = 0.1 #randomly sampled fraction of data from training set to train in batches
layers = [4, 20, 20, 20, 20, 20, 20, 20, 20, 1]
len_data = 10000
x_x = np.array([np.linspace(0.,1.,len_data)])
x_y = np.array([np.linspace(0.,1.,len_data)])
x_z = np.array([np.ones(len_data)*1.0])
#x_z = np.array([np.linspace(0.,1.,len_data)])
x_t = np.array([np.linspace(0.,1.,len_data)])
y_true = np.array([np.linspace(-1.,1.,len_data)])

N_train = int(frac_train*len_data)
idx = np.random.choice(len_data, N_train, replace=False)

x_train = x_x.T[idx,:]
y_train = x_y.T[idx,:]
z_train = x_z.T[idx,:]
t_train = x_t.T[idx,:]
v1_train = y_true.T[idx,:] 

sample_batch_size = int(frac_sample_train*N_train)

np.random.seed(1234)
tf.set_random_seed(1234)
import logging
logging.getLogger('tensorflow').setLevel(logging.ERROR)
tf.logging.set_verbosity(tf.logging.ERROR)

class NeuralNet:
    def __init__(self, x, y, z, t, v1, layers):
        X = np.concatenate([x, y, z, t], 1)  
        self.lb = X.min(0)
        self.ub = X.max(0)
        self.X = X
        self.x = X[:,0:1]
        self.y = X[:,1:2]
        self.z = X[:,2:3]
        self.t = X[:,3:4]
        self.v1 = v1 
        self.layers = layers 
        self.weights, self.biases = self.initialize_NN(layers) 
        self.sess = tf.Session(config=tf.ConfigProto(allow_soft_placement=False,
                                                     log_device_placement=False)) 
        self.x_tf = tf.placeholder(tf.float32, shape=[None, self.x.shape[1]])
        self.y_tf = tf.placeholder(tf.float32, shape=[None, self.y.shape[1]])
        self.z_tf = tf.placeholder(tf.float32, shape=[None, self.z.shape[1]])
        self.t_tf = tf.placeholder(tf.float32, shape=[None, self.t.shape[1]])
        self.v1_tf = tf.placeholder(tf.float32, shape=[None, self.v1.shape[1]])  
        self.v1_pred = self.net(self.x_tf, self.y_tf, self.z_tf, self.t_tf) 
        self.loss = tf.reduce_mean(tf.square(self.v1_tf - self.v1_pred)) 
        self.optimizer = tf.contrib.opt.ScipyOptimizerInterface(self.loss,
                                                                method = 'L-BFGS-B',
                                                                options = {'maxiter': 50,
                                                                           'maxfun': 50000,
                                                                           'maxcor': 50,
                                                                           'maxls': 50,
                                                                           'ftol' : 1.0 * np.finfo(float).eps})
        init = tf.global_variables_initializer()  
        self.sess.run(init)
    def initialize_NN(self, layers):
        weights = []
        biases = []
        num_layers = len(layers)
        for l in range(0,num_layers-1):
            W = self.xavier_init(size=[layers[l], layers[l+1]])
            b = tf.Variable(tf.zeros([1,layers[l+1]], dtype=tf.float32), dtype=tf.float32)
            weights.append(W)
            biases.append(b) 
        return weights, biases
    def xavier_init(self, size):
        in_dim = size[0]
        out_dim = size[1]
        xavier_stddev = np.sqrt(2/(in_dim + out_dim)) 
        return tf.Variable(tf.truncated_normal([in_dim, out_dim], stddev=xavier_stddev), dtype=tf.float32)
    def neural_net(self, X, weights, biases):
        num_layers = len(weights) + 1
        H = 2.0*(X - self.lb)/(self.ub - self.lb) - 1.0
        for l in range(0,num_layers-2):
            W = weights[l]
            b = biases[l]
            H = tf.tanh(tf.add(tf.matmul(H, W), b))
        W = weights[-1]
        b = biases[-1]
        Y = tf.add(tf.matmul(H, W), b) 
        return Y
    def net(self, x, y, z, t): 
        v1_out = self.neural_net(tf.concat([x,y,z,t], 1), self.weights, self.biases)
        v1 = v1_out[:,0:1]
        return v1
    def callback(self, loss):
        global Nfeval
        print(str(Nfeval)+' - Loss in loop: %.3e' % (loss))
        Nfeval += 1
    def fetch_minibatch(self, x_in, y_in, z_in, t_in, den_in, N_train_sample):  
        idx_batch = np.random.choice(len(x_in), N_train_sample, replace=False)
        x_batch = x_in[idx_batch,:]
        y_batch = y_in[idx_batch,:]
        z_batch = z_in[idx_batch,:]
        t_batch = t_in[idx_batch,:]
        v1_batch = den_in[idx_batch,:] 
        return x_batch, y_batch, z_batch, t_batch, v1_batch
    def train(self, end_it):  
        it = 0
        while it < end_it: 
            x_res_batch, y_res_batch, z_res_batch, t_res_batch, v1_res_batch = self.fetch_minibatch(self.x, self.y, self.z, self.t, self.v1, sample_batch_size) # Fetch residual mini-batch
            tf_dict = {self.x_tf: x_res_batch, self.y_tf: y_res_batch, self.z_tf: z_res_batch, self.t_tf: t_res_batch,
                       self.v1_tf: v1_res_batch}
            self.optimizer.minimize(self.sess,
                                    feed_dict = tf_dict,
                                    fetches = [self.loss],
                                    loss_callback = self.callback) 
    def predict(self, x_star, y_star, z_star, t_star): 
        tf_dict = {self.x_tf: x_star, self.y_tf: y_star, self.z_tf: z_star, self.t_tf: t_star}
        v1_star = self.sess.run(self.v1_pred, tf_dict)  
        return v1_star

model = NeuralNet(x_train, y_train, z_train, t_train, v1_train, layers)

Nfeval = 1
model.train(end_it)

Ответы [ 2 ]

1 голос
/ 28 апреля 2020

Я думаю, что ваша проблема в этой строке:

H = 2.0*(X - self.lb)/(self.ub - self.lb) - 1.0

В третьем столбце fo X, соответствующем переменной z, оба значения self.lb и self.ub имеют одинаковое значение и равным значению в примере, в данном случае 1, поэтому он вычисляется в точности:

2.0*(1.0 - 1.0)/(1.0 - 1.0) - 1.0 = 2.0*0.0/0.0 - 1.0

Что составляет nan. Вы можете обойти проблему несколькими различными способами, простой вариант - просто:

# Avoids dividing by zero
X_d = tf.math.maximum(self.ub - self.lb, 1e-6)
H = 2.0*(X - self.lb)/X_d - 1.0
0 голосов
/ 25 апреля 2020

Это интересная ситуация. Быстрая проверка онлайн-инструмента для регрессии показывает, что даже простая регрессия страдает от проблемы неспособности соответствовать точкам данных, когда один из входов является постоянным в наборе данных. Взглянув на решение алгебра c для задачи линейной регрессии с двумя переменными, мы увидим решение, включающее деление на стандартное отклонение, которое, будучи нулем в постоянном наборе, является проблемой.

Что касается решения через backprop (как в вашей нейронной сети), я сильно подозреваю, что производная потери по отношению к входу ( эти выражения ) является виновником, и что алгоритм не может обновлять веса W, используя W := W - α.dZ, и остается неизменным.

...