У меня проблемы с пониманием того, как bias
работает в tensor2tensor
, особенно в multihead_attention
или dot_product_attention
.Я хочу использовать его как библиотеку для своей задачи.
Допустим, у меня есть входной тензор, T
с измерением, (batch, max_input_length, hidden_unit)
для пакета предложений S
.И у меня также есть тензор sequence_length
, размерность которого (batch)
с указанием длины каждого предложения в S
.Теперь, как я могу подготовить вектор bias
для этого input
?
Я хочу вычислить вектор bias
для self_attention
, что означает, что q
, k
, v
то же самое.
Другое дело, что происходит с bias
, если q
отличается, а k
, v
одинаково?Это что-то вроде cross_attention
.Я думаю, что в этом случае мы должны рассчитать вектор смещения для k
.Но я не уверен.