Несоответствие документации и реализации векторов spaCy для немецких слов? - PullRequest
0 голосов
/ 17 октября 2018

Согласно документации :

маленькие модели spaCy (все пакеты, оканчивающиеся на sm) не поставляются с векторами слов и включают только контекстно-зависимые тензоры.[...] отдельным токенам не будут назначаться векторы.

Но когда я использую модель de_core_news_sm, токены имеют записи для x.vector и x.has_vector=True.

Похоже, что это context_vectors, но, насколько я понимаю, в документации доступны только векторы слов через атрибут vector, а у моделей sm их не должно быть.Почему это работает для "маленькой модели"?

1 Ответ

0 голосов
/ 20 октября 2018

has_vector ведет себя не так, как вы ожидаете.

Это обсуждается в комментариях к проблеме , поднятой на github.Суть в том, что поскольку векторы доступны, это True, даже если эти векторы являются контекстными векторами.Обратите внимание, что вы по-прежнему можете использовать их, например, для вычисления сходства.

Цитата участника spaCy Инес :

Мы обсуждали, какhas_vector должен вести себя в таких случаях.Есть вектор, поэтому возвращать его False будет вводить в заблуждение.Точно так же, если модель не поставляется с предварительно обученным словарем, технически все лексемы - OOV.

Было объявлено, что версия 2.1.0 включает немецкие векторы слов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...