Обучение Tensorflow 2.0.1 останавливает систему - PullRequest
1 голос
/ 26 февраля 2020

Я тренирую GAN с использованием tenorflow 2.0.1 gradienttape(). Обучение проходит до 2000/2562 партий в 0-ю эпоху и замораживает систему. Я даже ограничил объем памяти GPU до 8 ГБ:

if gpus:
  # Restrict TensorFlow to only allocate 1GB of memory on the first GPU
  try:
    tf.config.experimental.set_virtual_device_configuration(
        gpus[0],
        [tf.config.experimental.VirtualDeviceConfiguration(memory_limit=8172)])

Конфигурация системы:
Графический процессор: память Nvidia 1080ti 11 ГБ
ОЗУ: 16 ГБ DDR4
Версия Tensorflow : 2.0.1
Версия Cuda: 10.0
ОС: Ubuntu 18.04

Я могу предоставить код, если вам нужно.
Примечание: Tensorflow был создан из источника

1 Ответ

0 голосов
/ 26 февраля 2020

Причину зависания системы действительно сложно определить. В вашем случае я бы начал с установки предварительно скомпилированной версии tenorflow с использованием pip.

Если вы наблюдаете те же симптомы, я бы заподозрил либо слишком слабый блок питания, либо проблему с вентиляцией вашего P C.

Чтобы проверить, не хватает ли блока питания вызывает остановку, вы можете попытаться ограничить ток, используемый вашим графическим процессором, с помощью:

nvidia-smi.exe" -i 0 -pl 100

Это ограничит мощность, используемую вашей картой, до 100 Вт (пиковое потребление 1080Ti должно быть около 250 Вт-300 Вт, когда не ограничено). Обучение будет медленнее, но если оно больше не потребляет sh источника питания.

Вы также можете использовать nvidia-smi для контроля температуры графического процессора и проверки, находится ли она в допустимых пределах.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...