Проверьте рабочую нагрузку ТПУ - PullRequest
0 голосов
/ 20 сентября 2018

Я тренирую модель, и когда я открываю TPU в консоли Google Cloud Platform, он показывает загрузку процессора (полагаю, на TPU).Это действительно очень низкий (около 0,07%), так что, может быть, это процессор виртуальной машины?Мне интересно, действительно ли обучение действительно правильное или TPU настолько сильны.

Есть ли другой способ проверить использование TPU?Может быть, с помощью команды ctpu?

Ответы [ 3 ]

0 голосов
/ 21 сентября 2018

Я бы порекомендовал использовать инструменты профилирования TPU, которые подключаются к TensorBoard.Хороший учебник по установке и использованию этих инструментов можно найти здесь .

Вы запустите профилировщик, пока ваш TPU обучается.Он добавит дополнительную вкладку к вашей TensorBoard с информацией о профилировании для конкретного TPU.Среди наиболее полезных:

  • Среднее время шага
  • Время простоя хоста (сколько времени процессор проводит на холостом ходу)
  • Время простоя TPU
  • Использование единиц матрицы TPU

Основываясь на этих показателях, профилировщик предложит способы начать оптимизацию вашей модели для обучения на TPU.Вы также можете изучить более сложные инструменты профилирования, такие как средство просмотра трассировки, или список самых дорогих операций с графиками.

Некоторые рекомендации по настройке производительности (помимо уже связанных с ch_mike) вы можете посмотреть на Руководство по производительности TPU .

0 голосов
/ 12 августа 2019
(vm)$ capture_tpu_profile --tpu=$TPU_NAME  --monitoring_level=2

При настройке monitor_level = 2 отображается более подробная информация:

TPU type: TPU v2
Number of TPU Cores: 8
TPU idle time (lower is better): 0.091%
Utilization of TPU Matrix Units is (higher is better): 10.7%
Step time: 1.95 kms (avg), 1.90kms (minute), 2.00 kms (max)
Infeed percentage: 87.5% (avg). 87.2% (min), 87.8 (max)

Ссылка: https://cloud.google.com/tpu/docs/cloud-tpu-tools#monitor_job

0 голосов
/ 20 сентября 2018

Если вы смотрите на GCP -> Compute Engine -> TPU, вы смотрите в правильном месте.Если вы увидите графики мониторинга вашего ассоциированного экземпляра Compute Engine, вы увидите, что график ЦП отличается.

В настоящее время, похоже, нет другого способа поиска этой информации, поскольку ни один изэти опции обеспечивают это:

gcloud compute tpus describe <tpu-name> --zone=<zone>

ctpu status --details

И API TPU

Как и то, является ли ваше обучение правильным, трудно сказать, вы можете обратитьсяна Используя TPU и убедитесь, что вы следуете там инструкциям.Другим полезным ресурсом будет Улучшение скорости обучения .

...