словарь spaCy BERT - PullRequest
       58

словарь spaCy BERT

0 голосов
/ 12 марта 2020

Я пытаюсь получить доступ к словарю spaCy BERT, но получаю странный вывод из модели. Например, для модели en_core_web_lg я могу извлечь ~ 1,3 миллиона токенов, например:

nlp = spacy.load("en_core_web_lg") 
tokens = [t for t in nlp.vocab]

Когда я делаю то же самое для модели en_trf_bertbaseuncased_lg, я получаю только 478 токенов,

nlp = spacy.load("en_trf_bertbaseuncased_lg") 
tokens = [t for t in nlp.vocab]

в то время как BERT должно быть ~ 30 тыс. токенов. Есть ли способ получить к ним доступ через nlp.vocab или атрибуты пользовательских компонентов ?

1 Ответ

0 голосов
/ 12 марта 2020

У меня была похожая проблема со стандартными моделями типа "en". Интересно, что длина точно такая же.

import spacy
nlp = spacy.load("en")
len([t for t in nlp.vocab])
478

Оказалось, что модели типа "en" не содержат реальных векторов (см. https://github.com/explosion/spaCy/issues/1520). Так что я думаю, что это также относится и к Берту.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...