Принимая во внимание пакет из 4 предварительно обработанных предложений (токенизация, нумерация и заполнение), показанный ниже:
batch = torch.tensor([
[1, 2, 0, 0],
[4, 0, 0, 0],
[3, 5, 6, 7]
])
, где 0
означает токен [PAD]
.
Таким образом, каков был бы эффективный подход для генерации тензора padding masking
той же формы, что и batch
, присваивая ноль в [PAD]
позициях и присваивая один другим входным данным (токенам предложений)?
В примере выше это будет примерно так:
padding_masking=
tensor([
[1, 1, 0, 0],
[1, 0, 0, 0],
[1, 1, 1, 1]
])