DensePose и RTX 2080 ti бросают «caffe2 :: EnforceNotMet» - PullRequest
0 голосов
/ 10 января 2019

Хост-система

  • Ubuntu 18.04
  • RTX 2080ti
  • Cuda 10
  • cuDNN 7.4.4 (для cuda 10.0)
  • Драйверы NVIDIA 410,93 (выход 3 января 2019 г.)

Я пытаюсь запустить denspose на моей новой карте RTX 2080 ti, используя nvidia-docker. Установка не является проблемой, но при запуске вылетает сбой. Запуск

python2 tools/infer_simple.py \ --cfg configs/DensePose_ResNet101_FPN_s1x-e2e.yaml \ --output-dir DensePoseData/infer_out/ \ --image-ext jpg \ --wts https://s3.amazonaws.com/densepose/DensePose_ResNet101_FPN_s1x-e2e.pkl \ DensePoseData/demo_data/demo_im.jpg

Результаты в

terminate called after throwing an instance of 'caffe2::EnforceNotMet' what(): [enforce fail at conv_op_cudnn.cc:572] status == CUDNN_STATUS_SUCCESS. 8 vs 0. , Error at: /var/lib/jenkins/workspace/caffe2/operators/conv_op_cudnn.cc:572: CUDNN_STATUS_EXECUTION_FAILED Error from operator: input: "gpu_0/data" input: "gpu_0/conv1_w" output: "gpu_0/conv1" name: "" type: "Conv" arg { name: "kernel" i: 7 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 3 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 2 } device_option { device_type: 1 cuda_gpu_id: 0 } engine: "CUDNN" *** Aborted at 1547126675 (unix time) try "date -d @1547126675" if you are using GNU date *** PC: @ 0x7f6e510e5428 gsignal *** SIGABRT (@0xd) received by PID 13 (TID 0x7f6db5a4c700) from PID 13; stack trace: *** @ 0x7f6e5148b390 (unknown) @ 0x7f6e510e5428 gsignal @ 0x7f6e510e702a abort @ 0x7f6e4afb284d __gnu_cxx::__verbose_terminate_handler() @ 0x7f6e4afb06b6 (unknown) @ 0x7f6e4afb0701 std::terminate() @ 0x7f6e4afdbd38 (unknown) @ 0x7f6e514816ba start_thread @ 0x7f6e511b741d clone @ 0x0 (unknown) Aborted (core dumped)

Мне удалось заставить darknet и yolo работать, используя nvidia-docker. Однако мне нужно было обновить Makefile и добавить правильный Compute Capability 7.5.

Ошибка, похоже, связана с cuDNN, но не должно ли быть правильное cuDNN в образе докера? Или докер использует cuDNN на хосте? Первый ряд в Dockerfile выглядит так:

FROM caffe2/caffe2:snapshot-py2-cuda9.0-cudnn7-ubuntu16.04

Мне кажется, что cudnn идет с изображением, и не важно, какая у меня версия?

Кто-нибудь испытывал нечто подобное с этой картой?

...