У меня есть кодовая база, которая работала нормально, но сегодня, когда я пытался запустить, я заметил, что tokenizer.encode_plus
перестал возвращать attention_mask
. Это удалено в последнем выпуске? Или мне нужно сделать что-то еще?
У меня работал следующий фрагмент кода.
encoded_dict = tokenizer.encode_plus(
truncated_query,
span_doc_tokens,
max_length=max_seq_length,
return_overflowing_tokens=True,
pad_to_max_length=True,
stride=max_seq_length - doc_stride - len(truncated_query) - sequence_pair_added_tokens,
truncation_strategy="only_second",
return_token_type_ids=True,
return_attention_mask=True
)
Но теперь я получаю только dict_keys(['input_ids', 'token_type_ids'])
из encode_plus. Также я понял, что возвращенные input_ids
не дополняются до max_length
.