GPT-2: (аппаратные) требования для тонкой настройки модели 774M - PullRequest
0 голосов
/ 24 апреля 2020

Интересно, есть ли кто-нибудь, кто действительно преуспел в тонкой настройке модели 774M GPT-2 без использования облачных TPU. Мой GeForce RTX 2070 SUPER не мог справиться с этим в предыдущих попытках.

Я использую TensorFlow 1.14.0 с CUDA V 9.1 в Ubuntu 18.04. Для тонкой настройки я использую gpt-2-simple .

При тонкой настройке с использованием модели 77M я продолжаю сталкиваться с ошибками OOM, такими как: W tensorflow/core/common_runtime/bfc_allocator.cc:314] Allocator (GPU_0_bfc) ran out of memory trying to allocate 6.25MiB (rounded to 6553600). Current allocation summary follows.

До сих пор я пробовал:

  • Использование другого оптимизатора (RMSPropOptimizer вместо AdamOptimizer)
  • Установка размера партии в 1
  • use_memory_saving_gradients
  • only_train_transformer_layers

Точная настройка плавно работает на модели 355M.

Так что я действительно спрашиваю:

  • Возможно ли точно настроить модель 774M GPT-2 без аппаратного обеспечения промышленного размера?
  • , если это так, расскажите, пожалуйста, о ваших успешных попытках
  • , кроме рекомендаций по аппаратному обеспечению, как Можно ли оптимизировать тонкую настройку, чтобы в память поместилось 77M?

Спасибо

...