У меня возник вопрос о коде тонкой настройки языковой модели в хранилище Hugging Face. Похоже, что метод forward модели BERT принимает в качестве входных данных аргумент с именем Внимание_Маска .
В документации говорится, что маска внимания является необязательным аргументом, используемым при группировании последовательностей. Этот аргумент указывает модели, на какие токены следует обращать внимание, а какие - нет. Например, методы кодирования токенизатора возвращают эту маску внимания, двоичный тензор, указывающий положение дополняемых индексов, чтобы модель не обращала на них внимания, что имеет смысл.
Если я не ошибаюсь, однако Я не вижу использования этой маски внимания в коде для тонкой настройки языковой модели. Действительно, во время прямого прохода только входные идентификаторы задаются как входные данные, cf этот код .
Мои вопросы: означает ли это, что мы не убиваем внимание на жетонах заполнения во время тренировки? Есть ли смысл принимать их во внимание? Или, может быть, я что-то пропустил в коде?
Большое спасибо за ваш ответ :)
РЕДАКТИРОВАТЬ
Я заметил, что способ, которым Hugging Face создает набор данных, приводит к заполнение не требуется (см. этот код )