Как только у вас есть словосочетания - либо общий, повторно используемый из других мест, либо (лучше) кто-то обучил нашу вашу текстовую область - вы также можете использовать «Расстояние до словаря» (ОМУ), чтобы оценить сходство предложений (или других короткихтексты).Некоторые демонстрации показывают, что он действительно хорошо ранжирует предложения по одинаковому значению, даже если использует совсем другое слово.
Однако обратите внимание, что ОМУ рассчитывается относительно дорого по сравнению с простыми векторными расстояниями методов, которые дают каждому тексту один вектор, такой как Doc2Vec
.Таким образом, это может быть целесообразно только для небольших наборов текстов, или если много вычислительной мощности может быть выделено, или если дополнительная оптимизация первого прохода ограничивает количество парных расчетов ОМУ, которые нужно сделать.
(Существует также другая метрика, которая может приблизить производительность ОМУ, называемая «Мягкое косинусное сходство». В последних версиях пакета Python gensim доступны вычисления как по ОМУ, так и по мягкому косинусному подобию, но они не 'пока полностью оптимизированы, а лучшие практики четко не описаны.)