sense2ve c улучшения производительности - PullRequest
1 голос
/ 21 января 2020

Я использую Sense2Ve c (основан на Spacy, библиотеке / инструменте Fantasyti c NLP) и проверяю сходство между различными словами. К сожалению, производительность довольно низкая (на обычном MacBook Pro выполняется более секунды).

У кого-нибудь есть способ ускорить это?

Вот код:

term = "dog|NOUN"
sense2vec = Sense2Vec().from_disk("path-to-s2v_reddit_2019_lg")
sims = sense2vec.most_similar(term, n=top)

Я подозреваю, что некоторое кэширование ускорит процесс, но я не уверен, какие элементы следует кэшировать.

Любая помощь приветствуется.

1 Ответ

0 голосов
/ 21 января 2020

Действительно, есть способ ускорить Sense2Vec.most_similar. Доступен скрипт из https://github.com/explosion/sense2vec/blob/master/scripts/06_precompute_cache.py, который предварительно вычисляет кеш ближайших соседей. Затем он сохранит этот кэш с компонентом на диске, увеличивая объем данных, но делая запросы быстрыми. Если запрос не покрывается кешем, most_similar возвращается к обычным вычислениям.

...