У меня была такая же проблема с запуском.
Это Представление Kaggle мне очень помогло. Там вы можете увидеть, как можно токенизировать данные в соответствии с выбранной предварительно обученной моделью:
def tokenize_sentences(sentences, tokenizer, max_seq_len = 128):
tokenized_sentences = []
for sentence in tqdm(sentences):
tokenized_sentence = tokenizer.encode(
sentence, # Sentence to encode.
add_special_tokens = True, # Add '[CLS]' and '[SEP]'
max_length = max_seq_len, # Truncate all sentences.
return tokenized_sentences
tokenizer = BertTokenizer.from_pretrained(bert_model_name, do_lower_case=True)
train_ids = tokenize_sentences(your_sentence_list, tokenizer)
Кроме того, я посмотрел на источник из glue_convert_examples_to_features
. Там вы можете увидеть, как можно создать tf.data.dataset , совместимый с моделью BERT. Я создал для этого функцию:
def create_dataset(ids, masks, labels):
def gen():
for i in range(len(train_ids)):
yield (
"input_ids": ids[i],
"attention_mask": masks[i]
return tf.data.Dataset.from_generator(
({"input_ids": tf.int32, "attention_mask": tf.int32}, tf.int64),
"input_ids": tf.TensorShape([None]),
"attention_mask": tf.TensorShape([None])
train_dataset = create_dataset(train_ids, train_masks, train_labels)
Затем я использую набор данных следующим образом:
from transformers import TFBertForSequenceClassification, BertConfig
model = TFBertForSequenceClassification.from_pretrained(
config=BertConfig.from_pretrained(bert_model_name, num_labels=20)
# Prepare training: Compile tf.keras model with optimizer, loss and learning rate schedule
optimizer = tf.keras.optimizers.Adam(learning_rate=3e-5, epsilon=1e-08, clipnorm=1.0)
loss = tf.keras.losses.CategoricalCrossentropy(from_logits=True)
metric = tf.keras.metrics.CategoricalAccuracy('accuracy')
model.compile(optimizer=optimizer, loss=loss, metrics=[metric])
# Train and evaluate using tf.keras.Model.fit()
history = model.fit(train_dataset, epochs=1, steps_per_epoch=115, validation_data=val_dataset, validation_steps=7)