Гомограф - это слово, которое имеет то же самое написание, что и другое слово, но имеет другой звук и другое значение, например, lead (перед ним) / свинец (металл) .
Я пытался использовать векторы пространственных слов для сравнения документов друг с другом, суммируя каждый вектор слов для каждого документа и, наконец, находя косинусное сходство. Если, например, пространственные векторы имеют одинаковый вектор для двух 'отведений' , перечисленных выше, результаты, вероятно, будут плохими.
В коде ниже, почему сходство между двумя 'банком'
токены выходят как 1.00 ?
import spacy
nlp = spacy.load('en')
str1 = 'The guy went inside the bank to take out some money'
str2 = 'The house by the river bank.'
str1_tokenized = nlp(str1.decode('utf8'))
str2_tokenized = nlp(str2.decode('utf8'))
token1 = str1_tokenized[-6]
token2 = str2_tokenized[-2]
print 'token1 = {} token2 = {}'.format(token1,token2)
print token1.similarity(token2)
Выход для данной программы:
токен1 = банк токен2 = банк
1,0