Решение, что тексты или предложения эквивалентны по содержанию - PullRequest
0 голосов
/ 06 апреля 2019

Классический пример определения сходства как расстояния Word Mover's Distance, например, здесь https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html, Модель word2vec на GoogleNews-vectors-positive300.bin, D1 = "Обама говорит со СМИ в Иллинойсе", D2 = "Президент приветствует прессу в Чикаго", D3 = "Апельсины - мой любимый фрукт". При расчете расстояния wmd: расстояние (D1, D2) = 3,3741, расстояние (D1, D3) = 4,3802. Итак, мы понимаем, что (D1, D2) больше похожи, чем (D1, D3). Каково пороговое значение для расстояния vmd, чтобы решить, что два предложения на самом деле содержат почти одинаковую информацию? Может быть, в случае предложений D1 и D2 значение 3.3741 слишком велико, и в действительности эти предложения отличаются? Такие решения необходимо принимать, например, когда есть вопрос, образец правильного ответа и ответ учащегося. Дополнение после ответа gojomo: Давайте отложим идентификацию и автоматическое понимание логики на потом. Давайте рассмотрим случай, когда в двух предложениях есть перечисление объектов или свойств и действий одного объекта в позитивном ключе, и нам нужно оценить, насколько схоже содержание этих двух предложений.

1 Ответ

1 голос
/ 07 апреля 2019

Я не верю, что есть какой-то абсолютный порог, который можно использовать по вашему желанию.

«Дистанция перемещения слов» может предложить впечатляющие результаты в поиске очень похожих текстов, особенно в сравнении с другими текстами-кандидатами.

Однако на его величину могут влиять размеры текстов, и, кроме того, он не понимает строгой грамматики / семантики.Таким образом, такие вещи, как тонкие отрицания или контрасты, или вещи, которые были бы бессмыслицей для носителей языка, не будут выделены как очень «отличные» от других утверждений.

Например, две фразы «Многие историки согласны с тем, что Обама абсолютно позитивно лучший президент 21-го века», и «Многие историки согласны с тем, что Обама абсолютно позитивно не лучший президент 21-го века», будутотмечается как невероятно схожий по большинству показателей, основанных на статистике слов, таких как Word Mover's Distance.Тем не менее, вставка одного слова означает, что они передают несколько противоположные идеи.

...