Я пытаюсь обучить реализацию hugfaceface модели GPT2 с нуля (имеется в виду, что я использую их архитектуру, но не использую предварительно обученные веса), но я заметил, просматривая код здесь https://github.com/huggingface/transformers/blob/master/src/transformers/modeling_gpt2.py, что Кажется, не существует реализации причинно-следственной маски.
Я мог бы написать некрасиво for loop
и передать в сеть мои обучающие последовательности по одному токену за раз, что не было бы неэффективно. Я мог бы также разбить каждый из моих токенов с примерами токеном, дополнить их и скормить как пакет, что, вероятно, быстрее, но не доставляет большого удовольствия.
Кто-нибудь из вас раньше работал в тесном контакте с преобразователями huggingface? ? Знаете ли вы, есть ли реализация маскируемой маски, которую я пропустил, или другой способ сделать то, что я описываю?
PS: Да, я уже прочитал пост поста huggingface по обучению с нуля, но в основном он неполон и соответствующие части, касающиеся обучения, не учтены.