Я добился со вчерашнего дня моей первой попытки тренировать одну модель:
python object_detection/legacy/train.py --train_dir=CP --pipeline_config_path=faster_rcnn_inception_v2_coco.config
Через несколько раз (10 или 20 секунд) я больше не могу вводить что-либо с клавиатуры или клавиатуры. Обновление GPU (nvidia-smi) зависло.
Через несколько минут я сделал сброс и проверил содержание CP. Это больше не пусто.
Что я вижу, так это то, что жесткий диск все время работает.
Я сделал то же самое во второй раз, но пусть процесс продолжается до утра. Каталог CP был обновлен (до model.ckpt-491).
Теперь несколько слов, чтобы описать мою конфигурацию:
Процессор: i5
Оперативная память: 8 гига
ОС: Ubuntu 18.04
GPU 1: GT 730 используется для визуализации
GPU 2: GTX 1060
ncvv: V9.0
и nvidia-smi дают:
+ ---------------------------------------------- ------------------------------- +
| NVIDIA-SMI 390.87 Версия драйвера: 390.87 |
| ------------------------------- + ----------------- ----- + ---------------------- +
| Название графического процессора Персистент-М | Bus-Id Disp.A | Летучий Uncorr. ECC |
| Fan Temp Perf Pwr: Использование / Крышка | Использование памяти | GPU-Util Compute M. |
| =============================== + ================= ===== + ====================== |
| 0 GeForce GT 730 Off | 00000000: 01: 00.0 Н / Д | N / A |
| N / A 34C P0 N / A / N / A | 703MiB / 2001MiB | N / A По умолчанию |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 1 GeForce GTX 106 ... Off | 00000000: 06: 00.0 выкл. | N / A |
| 0% 33C P8 4 Вт / 120 Вт | 2MiB / 6078MiB | 0% по умолчанию |
+ ------------------------------- + ----------------- ----- + ---------------------- +
+ ------------------------------------------------- ---------------------------- +
Изначально я установил все, чтобы работать только с одним графическим процессором (GT 730, так как у меня не было второго).
Вчера я получил новую видеокарту, и, не делая ничего, она была распознана nvidia-smi и использовалась напрямую Tensorflow. Без каких-либо других модификаций.
Теперь мои вопросы:
- может быть проблема в том, что я не установил драйвер для этой новой карты (я не использовал его для визуализации)?
- или какой-то пункт в файле конфигурации (я уменьшил максимальный размер до 600 * 480) и более низкий batch_size до 1 можно изменить, чтобы избежать моей проблемы?
Спасибо тебе за помощь
Жан-Мари