Тренинг по нескольким GPU для Трансформаторов с разными GPU - PullRequest
2 голосов
/ 28 марта 2020

Я хочу точно настроить модель GPT-2, используя Трансформаторы Huggingface. Желательно средняя модель, но большая, если это возможно. В настоящее время у меня RTX 2080 Ti с 11 ГБ памяти, и я могу отлично обучить маленькую модель.

Мой вопрос: возникнут ли у меня какие-либо проблемы, если я добавлю в свой старый Tesla K80 (24 ГБ) машина и распределила обучение? Я не могу найти информацию об использовании графических процессоров различной емкости во время обучения и проблемах, с которыми я мог бы столкнуться.

Будет ли предел размера моей модели по сути быть суммой всей доступной памяти графического процессора? (35GB?)

Мне не интересно делать это в AWS.

...