Маска RCNN Ресурс исчерпан (OOM) в моем собственном наборе данных - PullRequest
0 голосов
/ 01 октября 2018

Требуется помощь для маски исчерпания ресурса RCNN -

H / W - i7-8700, 32 ГБ ОЗУ, одиночная ASUS ROG STRIX 1080ti (11 ГБ)

Настройка виртуальной среды env - tenorflow-gpu == 1.5.0, python == 3.6.6, Cuda == 9.0.176, cudnn == 7.2.1

разрешение изображения - максимальная ширина = 900 пикселей, максимальная высота = 675 пикселей, минимальная ширина = 194 пикселей, минимальная высота = 150 пикселей, 11 изображений для обучения

S / W - IMAGES_PER_GPU = 1 (в классе xxConfig (Config), xxx.py), BACKBONE = "resnet50", POST_NMS_ROIS_TRAINING = 1000, POST_NMS_ROIS_INFERENCE = 500, IMAGE_RESIZE_MODE = "квадрат", IMAGE_MIN_DIM = 400, IMAGE_MAX_DIM = 512, TRAIN_ROIS_PER_IMAGE = 100

Что было для меня странным, nvidia-smi показала <300 МБ, используемых для python, однако терминал показал следующее, однако, </p>

ResourceExhaustedError (смотрите трассировку выше): OOM при выделении тензора с формой [3,3255625] и типом float on / job: localhost / replica: 0 / task: 0 / device: GPU: 0 от распределителя GPU_0_bfc [[Узел: fpn_p5 / random_uniform / RandomUniform = RandomUniformT = DT_INT32, dtype = DT_FLOAT, seed = 87654321, seed2 = 5038409, _device = "/ job: localhost / replica: 0 / task: 0 / device: GPU: 0"]]

nvidia-smi

журнал ошибок при запуске кода

Ответы [ 2 ]

0 голосов
/ 02 октября 2018

После замены cudnn 7.2.1 на 7.0.5 я теперь могу обучать Mask-RCNN с использованием 1080ti gpu без проблемы исчерпания ресурса (OOM).

0 голосов
/ 02 октября 2018

Tensorflow по умолчанию выделяет всю память графического процессора.Поэтому, если вы видите только 700 МБ, выделенных в nvidia-smi, то, скорее всего, вы задали какой-то параметр в Tensorflow для ограничения памяти графического процессора, например:

config.gpu_options.allow_growth = True

или

config.gpu_options.per_process_gpu_memory_fraction = 0.4

Удалите этоварианты и попробуйте еще раз.Смотрите также: https://www.tensorflow.org/guide/using_gpu

...