Я делаю некоторые НЛП, и меня интересует извлечение веса внимания отдельных тестовых токенов на каждом слое трансформатора через Python (PyTorch, TensorFlow и т. Transformer-XL, OpenAL-GPT, GPT2 и т. Д.) С нуля единственный способ узнать вес отдельных тестовых токенов на каждом слое трансформатора? Есть ли более простой способ выполнить эту задачу в Python? Точнее, можно ли использовать для этой цели Керас-трансформатор? Если кто-то может предоставить мне пример кода, это будет здорово!
Спасибо,