Можем ли мы провести обучение и проверку на отдельных графических процессорах, используя API обнаружения объектов tenorflow, работающий на tenorflow 1.12? - PullRequest
1 голос
/ 06 марта 2019

У меня есть две карты Nvidia Titan X на моей машине, и я хочу настроить модель Inception V2 с предварительным обучением COCO для одного конкретного класса. Я создал train / val tfrecords и изменил конфигурацию, чтобы запустить обучающий конвейер обнаружения объектов tenorflow.

Я могу начать тренировку, но она зависает (без OOM) всякий раз, когда он пытается оценить контрольную точку. В настоящее время он использует только GPU 0 с другими параметрами ресурса (такими как RAM, CPU, IO и т. Д.) В нормальном диапазоне. Так что я предполагаю, что GPU является узким местом. Я хотел попробовать разделить обучение и проверку на отдельные графические процессоры и посмотреть, работает ли он.

Я пытался найти место, где я мог бы сделать что-то вроде установки «CUDA_VISIBLE_DEVICES» по-разному для обоих процессов, но, к сожалению, последний код API обнаружения объектов tenorflow (использующий tenorflow 1.12) делает это очень трудным. Я также не могу проверить свои предположения о том, что обучение и проверка выполняются в том же процессе, что и моя машина. Может ли кто-нибудь подсказать, где искать решение?

...