Какие ключевые функции мне нужно проверить перед запуском задания тензорного потока в PBS? - PullRequest
0 голосов
/ 17 декабря 2018

Я пытаюсь выполнить задание глубокого обучения (разработанное в Tensorflow) в PBS, но через 1 неделю я получил сообщение об ошибке PBS: job killed: walltime 691231 exceeded limit 691200.Я новичок в работе PBS, поэтому я хочу знать, какие ключевые параметры я должен изменить для успешного завершения работы.У меня есть около 800 тысяч патчей данных.Я сохранил размер партии 32 и скорость обучения 3e-2.Текущая конфигурация моей системы

node - we have 12, ppn - absolute max is 32

Представьте настройки моего файла .PBS ppn-4.Я думаю, что мне нужно увеличить количество PPN.Есть ли другие ключевые точки, которые мне нужно изменить для повышения производительности?

Ответы [ 2 ]

0 голосов
/ 17 декабря 2018

Мы можем установить время PBS на стене, используя следующий формат.В вашем случае по умолчанию это было 8 дней (192 часа), поэтому работа была убита через 192 часа.

walltime в формате чч: мм: сс.

# PBS -l walltime = 192: 00: 00

Ниже приведена команда дляпроверьте настроенное максимальное время на стене.На основе "resources_max.walltime" вы можете установить значение в скрипте.

$ qmgr -c "список очереди списка"

пакет очереди

    resources_max.nodes = 16

   **resources_max.walltime = 24:00:00**
    ----

СпасибоРаджесвари Поннуру.

0 голосов
/ 17 декабря 2018

Вы можете увеличить время ожидания, добавив его в bash-скрипт перед запуском в режиме qsub, как показано ниже:

# PBS -l walltime=24:00:00 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...