Почему мое пакетное задание AWS завершается с ошибкой: Ошибка CUDA: на устройстве не доступен образ ядра для выполнения - PullRequest
0 голосов
/ 04 июня 2019

Я создал среду пакетных вычислений AWS, очередь заданий и определение задания для запуска рабочей нагрузки графического процессора. К сожалению, мой Docker-контейнер для GPU (на основе Nvidia / Cuda: 9.0-cudnn7-runtime) завершается с ошибкой: OSError: libcuda.so.1: не удается открыть общий объектный файл: такого файла или каталога нет. Я перепробовал много обходных путей, но снова закончился с другой ошибкой: Ошибка CUDA: на устройстве нет образа ядра для выполнения. Сейчас я застрял после более чем трех рабочих дней, потраченных на эти вопросы. Кто-нибудь может помочь?

Моя компьютерная среда:

УПРАВЛЯЕМЫЕ, EC2, [p2, p3] экземпляры.

Определение моей работы:

{
    "jobDefinitionName": "B2JobB2LiveModelRowTomatoCount",
    "jobDefinitionArn": "arn:aws:batch:us-west-2:019997017433:job-definition/B2JobB2LiveModelRowTomatoCount:10",
    "revision": 10,
    "status": "ACTIVE",
    "type": "container",
    "parameters": {},
    "retryStrategy": {
        "attempts": 3
    },
    "containerProperties": {
        "image": "******.dkr.ecr.*******.amazonaws.com/b2-live-model-row-tomato-count:latest",
        "vcpus": 1,
        "memory": 4000,
        "command": [],
        "volumes": [
            {
                "host": {
                    "sourcePath": "/tmp"
                },
                "name": "tempfolder"
            }
        ],
        "environment": [
            {
                "name": "LOG_LEVEL",
                "value": "INFO"
            }
        ],
        "mountPoints": [
            {
                "containerPath": "/tmp",
                "readOnly": false,
                "sourceVolume": "tempfolder"
            }
        ],
        "readonlyRootFilesystem": false,
        "privileged": true,
        "ulimits": [],
        "resourceRequirements": [
            {
                "value": "1",
                "type": "GPU"
            }
        ]
    }
}
...