Word movers Расстояние может использоваться для определения сходства между текстом.Это сходство можно использовать для сравнения нескольких текстов для поиска ближайшего похожего текста.Однако мне не удалось настроить алгоритм для выполнения следующего: 1) устранения местоположения (GPE) - идентифицированного по пространству в тексте, чтобы иметь какое-то значение при сравнении сходства.2) Придать больше значения функциям, которые находятся в первом предложении текста, а не функциям во втором предложении и втором предложении над третьим и т. Д.
instance = WmdSimilarity(wmd_corpus, loaded_model, num_best=10)
start = time()
sent = 'Abc hotel serves best in class drunken prawn in north america . ABC Hotel has branches in London, New York, Chicago and San Francisco.'
query = preprocess(sent)
sims = instance[query] # A query is simply a "look-up" in the similarity class.
print('Cell took %.2f seconds to run.' % (time() - start))
print('Query:')
print(sent)
for i in range(num_best):
print()
print('sim = %.4f' % sims[i][1])
print(documents[sims[i][0]])
В этом конкретном примере, где описание отеля передается для ОМУСходство, Результаты идентифицируют описания, такие как
-DEF - ресторан в Чикаго, предлагающий веганскую еду с 1969 года.- JKL теперь обслуживает в Лондоне, Нью-Йорке, Чикаго и Сан-Франциско. - Бестселлерами отеля являются пьяные креветки, лазанья и т. Д.(MNO Hotel)
Ожидаемый результат Только отель MNO из вышеуказанного результата имеет отношение к аспекту питания.
Запрос: Как устранить другой отель, который сопоставлен из-за местоположения?