Тренировка GPT2 от huggingface с нуля: как реализовать причинную маску? - PullRequest
0 голосов
/ 01 апреля 2020

Я пытаюсь обучить реализацию hugfaceface модели GPT2 с нуля (имеется в виду, что я использую их архитектуру, но не использую предварительно обученные веса), но я заметил, просматривая код здесь https://github.com/huggingface/transformers/blob/master/src/transformers/modeling_gpt2.py, что Кажется, не существует реализации причинно-следственной маски.

Я мог бы написать некрасиво for loop и передать в сеть мои обучающие последовательности по одному токену за раз, что не было бы неэффективно. Я мог бы также разбить каждый из моих токенов с примерами токеном, дополнить их и скормить как пакет, что, вероятно, быстрее, но не доставляет большого удовольствия.

Кто-нибудь из вас раньше работал в тесном контакте с преобразователями huggingface? ? Знаете ли вы, есть ли реализация маскируемой маски, которую я пропустил, или другой способ сделать то, что я описываю?

PS: Да, я уже прочитал пост поста huggingface по обучению с нуля, но в основном он неполон и соответствующие части, касающиеся обучения, не учтены.

...