В этом коде есть wq матрица весов, созданная случайным образом размером d_model
class MultiHeadAttention(tf.keras.layers.Layer):
def __init__(self, d_model, num_head):
self.wq = tf.keras.layers.Dense(d_model)
self.wk = tf.keras.layers.Dense(d_model)
self.wv = tf.keras.layers.Dense(d_model)
self.dense = tf.keras.layers.Dense(d_model)
def call(self, v, k, q, mask):
batch_size = tf.shape(q)[0]
q = self.wq(q)
что происходит в последней строке