В настоящее время я использую spaCy для целей НЛП (главным образом, лемматизации и токенизации).Используется модель en-core-web-sm (2.1.0).
Следующий код запускается для получения списка слов, «очищенных» из запроса
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(query)
list_words = []
for token in doc:
if token.text != ' ':
list_words.append(token.lemma_)
Однако при запуске этого кода у меня возникает серьезная проблема.Например, при запросе «Обработка чайных листьев».Результат, сохраненный в list_words, может быть [[processing], 'tea', 'leaf'] или ['processing', 'tea', 'left'].
Кажется, что результат не соответствует.Я не могу изменить свой ввод / запрос (добавить другое слово для контекста невозможно), и мне действительно нужно каждый раз находить один и тот же результат.Я думаю, что загрузка модели может быть проблемой.
Почему результат отличается?Могу ли я загружать модель «одинаково» каждый раз?Я пропустил параметр, чтобы получить тот же результат для неоднозначного запроса?
Спасибо за вашу помощь