Почему DistilBertTokenizer и BertTokenizer создают разное количество функций? - PullRequest
0 голосов
/ 27 октября 2019

Я пытался работать с DistilBertTokenizer и BertTokenizer от обнимающих трансформаторов. И согласно данной документации DistilBertTokenizer был идентичен BertTokenizer. Но при создании объектов для определенного набора данных он создает разное количество примеров. Почему? Я также пытался использовать модель Debertbert с BertTokenizer, но все равно он не работает (он не создавал такое же количество функций).

Не могли бы вы объяснить мне это ?? или Как я могу получить такое же количество функций ??

Я использовал приведенный ниже код для инициализации токенизаторов

tokenizer1 = BertTokenizer.from_pretrained(output_dir, do_lower_case=True)
tokenizer2 = DistilBertTokenizer.from_pretrained(output_dir, do_lower_case=True)
...