Недостаточно памяти - графический процессор Keras tenorflow - градиентное накопление - PullRequest
/ 17 марта 2020

Я использую простой автоэнкодер для очень большого набора данных временных рядов. В частности:

  • мой тренировочный образец сделан из 500000 временных рядов
  • мой набор проверки состоит из 100000 временных рядов
  • мой испытательный комплект сделан из 100000 временных рядов.

В каждом временном ряду есть 5994 временные компоненты.

Я выполняю обучение автоэнкодеру в кластере, к которому я получаю доступ через ssh. Кластер снабжен графическими процессорами, поэтому я установил tensorflow-gpu, чтобы можно было использовать ускорение GPU. В кластере 2 карты Nvidia Tesla K80.

Проблема, с которой я сталкиваюсь, заключается в том, что мой набор данных всегда слишком велик для обработки кластером. В результате я постоянно получаю «MemoryErrors» в выводе, даже если при запуске сценария задания для планировщика SLURM я запрашиваю много памяти.

Я начинаю задумываться об использовании Accumulation of Gradients для тренирую мою сеть, чтобы преодолеть эту проблему. Тем не менее, у меня нет опыта в этом, и я изо всех сил пытаюсь понять, какие изменения необходимы для реализации этого в моем программном обеспечении.

Ниже мой код AE в Kerastensorflow-gpu бэкэндом). Какие изменения потребуются для внедрения накопления градиентов?

from __future__ import division
from tensorflow.keras.layers import Input, Dense, BatchNormalization, Flatten, Lambda, Activation, Conv1D, MaxPooling1D, UpSampling1D, Reshape, Dropout
from tensorflow.keras.models import Model
from tensorflow.keras import optimizers
import keras.backend as K
from tensorflow.keras.layers import Add

import tensorflow as tf

import scipy.io
import sys
import matplotlib.pyplot as plt
import numpy as np
import copy
import h5py
import random


# reading training
train = np.load('./training_0.npy')
for i in range(1, 10):
    train_2 = np.load('./training_{}.npy'.format(i))    
    train = np.vstack((train, train_2))

print('training shape', np.shape(train))   # (500000, 5994)

# reading validation
val = np.load('./training_10.npy')  
val_2 = np.load('./training_11.npy')
val = np.vstack((val, val_2))

print('validation shape', np.shape(val))  # (100000, 5994)

#reading testing
test = np.load('./training_12.npy') 
test_2 = np.load('./training_13.npy')
test = np.vstack((test, test_2))

print('testing shape', np.shape(test))   # (100000, 5994)

# n. time components
number_of_time_components = np.shape(train)[1]   # 5994


# network parameters
Dense_1 = 2048
Dense_2 = 1024
Dense_3 = 512
Dense_4 = 256

# training parameters
epochs = 20

def Encoder():
    encoder_input = Input(batch_shape=(None, number_of_time_components))
    encoded = Dense(Dense_1,activation = 'tanh')(encoder_input)
    encoded = Dense(Dense_2,activation = 'tanh')(encoded)
    encoded = Dense(Dense_3,activation = 'tanh')(encoded)
    encoded = Dense(Dense_4,activation = 'tanh')(encoded)
    return Model(encoder_input, encoded)

 def DecoderAE(encoder_input, encoded_input):
     decoded_3 = Dense(Dense_3,activation = 'tanh', name='dec_3')(encoded_input)
     decoded_2 = Dense(Dense_2,activation = 'tanh', name='dec_2')(decoded_3)
     decoded_1 = Dense(Dense_1,activation = 'tanh', name='dec_1')(decoded_2)
     decoded = Dense(number_of_time_components,activation = 'tanh', name='dec_out')(decoded_1)
     return Model(encoder_input, decoded)

encoder = Encoder()
AE = DecoderAE(encoder.input, encoder.output)
AE.compile(optimizer='adam', loss='mse')

# train the model
history = AE.fit(x = train, y = train,
                    validation_data = (val, val))

# plot loss
loss = history.history['loss']
val_loss = history.history['val_loss']
range_epochs = range(epochs)
plt.plot(range_epochs, loss, 'bo', label='Training loss')
plt.plot(range_epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')

# predictions for testing
prediction = AE.predict(test)

# plot testing predictions vs original
fig, ax = plt.subplots(5, figsize=(15,30))
for i in range(5):
        ax[i].plot(test_original[10000*i], color='blue', label='Original')
        ax[i].plot(prediction[10000*i], color='red', label='AE encoded-decoded')
        ax[i].set_xlabel('Time components', fontsize='x-large')
        ax[i].set_ylabel('Amplitude', fontsize='x-large')
        ax[i].set_title('Time series n. {:}'.format(500000+10000*i+1), fontsize='x-large')


Чтобы ответить на вопрос в комментариях, вот самая последняя ошибка, которую я получаю получение, ошибка сегментации

Skipping registering GPU devices...
2020-03-17 11:59:38.147624: I tensorflow/core/platform/cpu_feature_guard.cc:142] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
2020-03-17 11:59:38.155618: I tensorflow/core/platform/profile_utils/cpu_utils.cc:94] CPU Frequency: 2300180000 Hz
2020-03-17 11:59:38.155743: I tensorflow/compiler/xla/service/service.cc:168] XLA service 0x5569424a0c00 initialized for platform Host (this does not guarantee that XLA will be used). Devices:
2020-03-17 11:59:38.155761: I tensorflow/compiler/xla/service/service.cc:176]   StreamExecutor device (0): Host, Default Version
2020-03-17 11:59:38.203600: I tensorflow/compiler/xla/service/service.cc:168] XLA service 0x5569424a34e0 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:
2020-03-17 11:59:38.203631: I tensorflow/compiler/xla/service/service.cc:176]   StreamExecutor device (0): Tesla K80, Compute Capability 3.7
2020-03-17 11:59:38.203714: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1096] Device interconnect StreamExecutor with strength 1 edge matrix:
2020-03-17 11:59:38.203724: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1102]      
2020-03-17 11:59:39.235137: W tensorflow/core/framework/cpu_allocator_impl.cc:81] Allocation of 23976000000 exceeds 10% of system memory.
2020-03-17 11:59:55.898563: W tensorflow/core/framework/cpu_allocator_impl.cc:81] Allocation of 23976000000 exceeds 10% of system memory.
containerscript.sh: line 4:  3654 Segmentation fault      python Autoencoder.py
srun: error: compute-gpu-0-0: task 0: Exited with exit code 139

и вот сценарий задания, используемый для запуска задания в SLURM

#SBATCH --mem=100000
#SBATCH --gres=gpu:k80:1


, где ./containerscript.sh просто содержит

python Autoencoder.py