Допустим, у меня есть две токенизированные последовательности BERT:
seq1 = tensor([[ 101, 2023, 2003, 1996, 23032, 102]])
seq2 = tensor([[ 101, 2023, 2003, 6019, 1015, 102]])
Это создается с помощью токенизатора huggingface:
seq = torch.tensor(tokenizer.encode(text=query, add_special_tokens=True)).unsqueeze(0)
Как лучше всего объединить токенизированные последовательности, чтобы получить одну финальную последовательность, в которой токены [sep] автоматически увеличиваются?
Например:
combined = tensor([[ 101, 2023, 2003, 1996, 23032, 102, 2023, 2003, 6019, 1015,
102]])
Кажется, что мне нужно l oop через и увеличить специальные токены, но это также кажется хаки.