Как использовать NLTK для объединения альтернативных вариантов написания? - PullRequest
0 голосов
/ 20 апреля 2020

Возможно ли использовать ntlk для объединения альтернативного написания в английском sh, пожалуйста? Так что «цвет» будет превращен в «цвет»? Это полезно, потому что у меня есть оба варианта заклинаний в моих данных, и кажется, что GoogleNews-векторы содержат только «серый», но не «серый».

enter image description here

Если я использовал glove.6B, оба варианта найдены, но их вложения не равны.

Я пробовал в WordNetLemmatizer, но он не работал:

from nltk.stem import WordNetLemmatizer
nltk.download("popular")

lemmatizer = WordNetLemmatizer() 

alternative_spellings = [["grey", "gray"], ["color", "colour"], ["feces", "faeces"]]

for ws in alternative_spellings:
    print (lemmatizer.lemmatize(ws[0]), lemmatizer.lemmatize(ws[1]))

Вывод:

grey gray
color colour
feces faeces
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...