Traning FasterRCNN не удалось использовать Transfer Learning Toolkit от Nvidia - PullRequest
0 голосов
/ 07 апреля 2020

Я тренирую FRCNN в TLT для Resnet18 и Mobilenet_v2. Доступные модели отображаются и отображаются с использованием ngc registry model list nvidia/iva/tlt_*

Загруженные Resnet18 и Mobilenet_v2 с использованием следующих команд.

ngc registry model download-version nvidia/iva/tlt_resnet18_faster_rcnn:1

ngc registry model download-version nvidia/iva/tlt_mobilenet_v2_faster_rcnn:1

Обе тренировки не выполнены с разными проблемами. Для Mobilenet_v2 обучение завершилось неудачно с

  Traceback (most recent call last):
  File "/usr/local/bin/tlt-train-g1", line 8, in <module>
    sys.exit(main())
  File "./common/magnet_train.py", line 30, in main
  File "./faster_rcnn/scripts/train.py", line 273, in main
  File "./faster_rcnn/data_loader/loader.py", line 200, in kitti_data_gen
UnboundLocalError: local variable 'image_channel_order' referenced before assignment

Resnet18 завершилось неудачей с

 2020-04-07 03:44:08,525 [INFO] /usr/local/lib/python2.7/dist-packages/iva/faster_rcnn/scripts/train.pyc: Loading pretrained weights from /workspace/tlt_resnet18_faster_rcnn_v1/resnet18.h5
Traceback (most recent call last):
  File "/usr/local/bin/tlt-train-g1", line 8, in <module>
    sys.exit(main())
  File "./common/magnet_train.py", line 30, in main
  File "./faster_rcnn/scripts/train.py", line 232, in main
  File "/usr/local/lib/python2.7/dist-packages/keras/engine/network.py", line 1163, in load_weights
    reshape=reshape)
  File "/usr/local/lib/python2.7/dist-packages/keras/engine/saving.py", line 1130, in load_weights_from_hdf5_group_by_name
    ' element(s).')
ValueError: Layer #4 (named "block_1a_conv_1") expects 1 weight(s), but the saved weights have 2 element(s).  

Моя версия TLT самая последняя nvcr.io/nvidia/tlt-streamanalytics:v1.0.1_py2

Как я могу исправить проблемы?

...