Как вы можете декодировать выходные последовательности из TFGPT2Model?
/ 15 апреля 2020

Я пытаюсь получить сгенерированный текст из TFGPT2Model в библиотеке Transformers. Я вижу выходной тензор, но не могу его расшифровать. Разве токенизатор не совместим с моделью TF для декодирования?


import tensorflow as tf

from transformers import (

model_name = "gpt2-medium"
config = GPT2Config.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = TFGPT2Model.from_pretrained(model_name, config=config)

input_ids = tf.constant(tokenizer.encode("Hello, my dog is cute", 
                 add_special_tokens=True))[None, :]  # Batch size 1
outputs = model(input_ids)
result = tokenizer.decode(outputs[0])

В результате получается:

$ python run_tf_gpt2.py
Traceback (most recent call last):
  File "run_tf_gpt2.py", line 19, in <module>
    result = tokenizer.decode(outputs[0])
  File "/home/.../transformers/src/transformers/tokenization_utils.py", line 1605, in decode
    filtered_tokens = self.convert_ids_to_tokens(token_ids, skip_special_tokens=skip_special_tokens)
  File "/home/.../transformers/src/transformers/tokenization_utils.py", line 1575, in convert_ids_to_tokens
    index = int(index)
  File "/home/.../venv/lib/python3.7/site-packages/tensorflow_core/python/framework/ops.py", line 853, in __int__
    return int(self._numpy())
TypeError: only size-1 arrays can be converted to Python scalars

(я удалил все TF сообщения и измененные пути моего окружения)

1 Ответ

/ 30 апреля 2020

Видимо, вы используете не ту модель GPT2. Я попробовал ваш пример, используя GPT2LMHeadModel, который является тем же Transformer только с головой моделирования языка сверху. Он также возвращает prediction_scores. В дополнение к этому вам нужно использовать model.generate(input_ids), чтобы получить вывод для декодирования. По умолчанию выполняется жадный поиск.

import tensorflow as tf

from transformers import (

model_name = "gpt2-medium"
config = GPT2Config.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = TFGPT2LMHeadModel.from_pretrained(model_name, config=config)

input_ids = tf.constant(tokenizer.encode("Hello, my dog is cute", add_special_tokens=True))[None, :]  # Batch size 1
outputs = model.generate(input_ids=input_ids)
result = tokenizer.decode(outputs[0])
