Ошибка CUDA: недостаточно памяти при использовании подпроцесса для запуска нескольких тренировочных процессов в Pytorch - PullRequest
0 голосов
/ 19 октября 2018

Я тренирую некоторые нейронные сети, и у меня есть скрипт для поиска гиперпараметров.

"""Peform hyperparemeters search"""

import argparse
import os
from subprocess import check_call
import sys
import numpy as np

import utils


PYTHON = sys.executable
parser = argparse.ArgumentParser()
parser.add_argument('--parent_dir', default='experiments/learning_rate',
                    help='Directory containing params.json')
parser.add_argument('--data_dir', default='data', help="Directory containing the dataset")


def launch_training_job(parent_dir, data_dir, job_name, params):
    """Launch training of the model with a set of hyperparameters in parent_dir/job_name

    Args:
        model_dir: (string) directory containing config, weights and log
        data_dir: (string) directory containing the dataset
        params: (dict) containing hyperparameters
    """
    # Create a new folder in parent_dir with unique_name "job_name"
    model_dir = os.path.join(parent_dir, job_name)
    if not os.path.exists(model_dir):
        os.makedirs(model_dir)

    # Write parameters in json file
    json_path = os.path.join(model_dir, 'params.json')
    params.save(json_path)

    # Launch training with this config
    cmd = "{python} -W ignore train.py --model_dir={model_dir} --data_dir {data_dir}".format(python=PYTHON, 
                                                                                             model_dir=model_dir, 
                                                                                             data_dir=data_dir)
    print(cmd)
    check_call(cmd, shell=True)


if __name__ == "__main__":
    # Load the "reference" parameters from parent_dir json file
    args = parser.parse_args()
    json_path = os.path.join(args.parent_dir, 'params.json')
    assert os.path.isfile(json_path), "No json configuration file found at {}".format(json_path)
    params = utils.Params(json_path)

    # Perform hypersearch over one parameter
    learning_rates = [1e-5]

    for learning_rate in learning_rates:
        # Modify the relevant parameter in params
        params.learning_rate = learning_rate

        # Launch job (name has to be unique)
        job_name = "learning_rate_{}".format(learning_rate)
        launch_training_job(args.parent_dir, args.data_dir, job_name, params)

Если я попытаюсь вызвать train.py сам по себе, ему не хватит памяти - он использует только около 2500 МБ из 12000 МБ, доступных на GPU.

Но если я вызову этот скрипт для поиска гиперпараметров, он будет исчерпан из памяти ДАЖЕ, если я вызову его с одним подпроцессом, а именно с тестированием ОДНОЙ скорости обучения.

Это сообщение об ошибке: RuntimeError: CUDA error: out of memory.

Обратите внимание, что это не происходит с другой аналогичной моделью, которая у меня меньше.

Почему это происходит?И как я могу это решить?

1 Ответ

0 голосов
/ 19 октября 2018

У меня недостаточно репутации, чтобы комментировать, поэтому я напишу ответ. Вам следует попробовать просмотреть эту ссылку, если вы используете систему Unix: Ошибка выделения памяти Python при использовании подпроцесса. Открыто Кажется,что в Unix есть проблема с подпроцессами ... Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...