Я пытаюсь получить доступ к словарю spaCy BERT, но получаю странный вывод из модели. Например, для модели en_core_web_lg
я могу извлечь ~ 1,3 миллиона токенов, например:
nlp = spacy.load("en_core_web_lg")
tokens = [t for t in nlp.vocab]
Когда я делаю то же самое для модели en_trf_bertbaseuncased_lg
, я получаю только 478 токенов,
nlp = spacy.load("en_trf_bertbaseuncased_lg")
tokens = [t for t in nlp.vocab]
в то время как BERT должно быть ~ 30 тыс. токенов. Есть ли способ получить к ним доступ через nlp.vocab
или атрибуты пользовательских компонентов ?