Интересно, есть ли кто-нибудь, кто действительно преуспел в тонкой настройке модели 774M GPT-2 без использования облачных TPU. Мой GeForce RTX 2070 SUPER не мог справиться с этим в предыдущих попытках.
Я использую TensorFlow 1.14.0 с CUDA V 9.1 в Ubuntu 18.04. Для тонкой настройки я использую gpt-2-simple .
При тонкой настройке с использованием модели 77M я продолжаю сталкиваться с ошибками OOM, такими как: W tensorflow/core/common_runtime/bfc_allocator.cc:314] Allocator (GPU_0_bfc) ran out of memory trying to allocate 6.25MiB (rounded to 6553600). Current allocation summary follows.
До сих пор я пробовал:
- Использование другого оптимизатора (
RMSPropOptimizer
вместо AdamOptimizer
) - Установка размера партии в 1
- use_memory_saving_gradients
- only_train_transformer_layers
Точная настройка плавно работает на модели 355M.
Так что я действительно спрашиваю:
- Возможно ли точно настроить модель 774M GPT-2 без аппаратного обеспечения промышленного размера?
- , если это так, расскажите, пожалуйста, о ваших успешных попытках
- , кроме рекомендаций по аппаратному обеспечению, как Можно ли оптимизировать тонкую настройку, чтобы в память поместилось 77M?
Спасибо