Я нашел несколько статей, которые могли бы дать вам несколько идей о том, как решить эту проблему. Они используют WordNet, который представляет собой корпус, который можно использовать для проверки сходства слов, и он доступен на NLTK:
Корли, Кортни и Рада Михальча. «Измерение семантического сходства текстов». Материалы семинара ACL по эмпирическому моделированию семантической эквивалентности и привязанности. Ассоциация компьютерной лингвистики, 2005.
-> переводит межсловное сходство на текстовом уровне, и я считаю, что вы можете адаптировать его к предложениям. (https://aclanthology.info/pdf/W/W05/W05-1203.pdf)
Хонек, Ричард П. "Семантическое сходство между предложениями". Журнал психолингвистических исследований 2.2 (1973): 137-151. -> Вот еще одна статья, которая вычисляет оценки сходства между предложениями.
Я только просмотрел две статьи, но похоже, что первая статья использует методы синтаксического и семантического сходства последовательно, тогда как вторая использует их параллельно.
- Миллер, Джордж А. и Уолтер Г. Чарльз. «Контекстуальные корреляты семантического сходства». Языковые и когнитивные процессы 6.1 (1991): 1-28. -> Это документ по лингвистике, который может дать вам лучшее понимание того, как сравнивать семантическое сходство предложений в случае, если первые два метода вам не подходят, и вам нужно найти собственное решение.
Удачи и надеюсь, что это поможет!