Возможно ли использовать ntlk для объединения альтернативного написания в английском sh, пожалуйста? Так что «цвет» будет превращен в «цвет»? Это полезно, потому что у меня есть оба варианта заклинаний в моих данных, и кажется, что GoogleNews-векторы содержат только «серый», но не «серый».
Если я использовал glove.6B, оба варианта найдены, но их вложения не равны.
Я пробовал в WordNetLemmatizer, но он не работал:
from nltk.stem import WordNetLemmatizer
nltk.download("popular")
lemmatizer = WordNetLemmatizer()
alternative_spellings = [["grey", "gray"], ["color", "colour"], ["feces", "faeces"]]
for ws in alternative_spellings:
print (lemmatizer.lemmatize(ws[0]), lemmatizer.lemmatize(ws[1]))
Вывод:
grey gray
color colour
feces faeces