Я хочу точно настроить модель GPT-2, используя Трансформаторы Huggingface. Желательно средняя модель, но большая, если это возможно. В настоящее время у меня RTX 2080 Ti с 11 ГБ памяти, и я могу отлично обучить маленькую модель.
Мой вопрос: возникнут ли у меня какие-либо проблемы, если я добавлю в свой старый Tesla K80 (24 ГБ) машина и распределила обучение? Я не могу найти информацию об использовании графических процессоров различной емкости во время обучения и проблемах, с которыми я мог бы столкнуться.
Будет ли предел размера моей модели по сути быть суммой всей доступной памяти графического процессора? (35GB?)
Мне не интересно делать это в AWS.