Как улучшить сходство расстояний словесного переносчика в python и обеспечить оценку сходства, используя взвешенное предложение - PullRequest
0 голосов
/ 05 февраля 2019

Word movers Расстояние может использоваться для определения сходства между текстом.Это сходство можно использовать для сравнения нескольких текстов для поиска ближайшего похожего текста.Однако мне не удалось настроить алгоритм для выполнения следующего: 1) устранения местоположения (GPE) - идентифицированного по пространству в тексте, чтобы иметь какое-то значение при сравнении сходства.2) Придать больше значения функциям, которые находятся в первом предложении текста, а не функциям во втором предложении и втором предложении над третьим и т. Д.

instance = WmdSimilarity(wmd_corpus, loaded_model, num_best=10)
start = time()
sent = 'Abc hotel serves best in class drunken prawn in north america . ABC Hotel has branches in London, New York, Chicago and San Francisco.'
query = preprocess(sent)

sims = instance[query]  # A query is simply a "look-up" in the similarity class.

print('Cell took %.2f seconds to run.' % (time() - start))

print('Query:')
print(sent)
for i in range(num_best):
    print()
    print('sim = %.4f' % sims[i][1])
    print(documents[sims[i][0]])

В этом конкретном примере, где описание отеля передается для ОМУСходство, Результаты идентифицируют описания, такие как

-DEF - ресторан в Чикаго, предлагающий веганскую еду с 1969 года.- JKL теперь обслуживает в Лондоне, Нью-Йорке, Чикаго и Сан-Франциско. - Бестселлерами отеля являются пьяные креветки, лазанья и т. Д.(MNO Hotel)

Ожидаемый результат Только отель MNO из вышеуказанного результата имеет отношение к аспекту питания.

Запрос: Как устранить другой отель, который сопоставлен из-за местоположения?

...