Я пытался работать с DistilBertTokenizer и BertTokenizer от обнимающих трансформаторов. И согласно данной документации DistilBertTokenizer был идентичен BertTokenizer. Но при создании объектов для определенного набора данных он создает разное количество примеров. Почему? Я также пытался использовать модель Debertbert с BertTokenizer, но все равно он не работает (он не создавал такое же количество функций).
Не могли бы вы объяснить мне это ?? или Как я могу получить такое же количество функций ??
Я использовал приведенный ниже код для инициализации токенизаторов
tokenizer1 = BertTokenizer.from_pretrained(output_dir, do_lower_case=True)
tokenizer2 = DistilBertTokenizer.from_pretrained(output_dir, do_lower_case=True)