При попытке лемматизировать по-испански sh в формате csv, содержащем более 60 000 слов, SpaCy неправильно пишет некоторые слова, я понимаю, что модель не на 100% точна. Однако я не нашел другого решения, так как NLTK не приносит ядро Spani sh.
Друг пытался задать этот вопрос в Spani sh Stackoverflow, однако, сообщество довольно мало по сравнению с этим сообществом, и мы не получили ответов об этом.
код:
nlp = spacy.load('es_core_news_sm')
def lemmatizer(text):
doc = nlp(text)
return ' '.join([word.lemma_ for word in doc])
df['column'] = df['column'].apply(lambda x: lemmatizer(x))
Я пытался лемматизировать некоторые слова, которые нашел неверно доказывать, что SpaCy делает это неправильно:
text = 'personas, ideas, cosas'
# translation: persons, ideas, things
print(lemmatizer(text))
# Current output:
personar , ideo , coser
# translation:
personify, ideo, sew
# The expected output should be:
persona, idea, cosa
# translation:
person, idea, thing