Вероятно, это работает в некоторой степени, но я бы не ожидал, что метод пространственного сходства (усреднение векторов слов) будет работать особенно хорошо.
Задача, над которой вы работаете, связана с обнаружением / идентификацией перефразирования и семантическим текстовым сходством, и существует множество уже существующих работ. Он часто используется для таких вещей, как обнаружение плагиата и оценка систем машинного перевода, поэтому вы можете найти больше подходов, посмотрев и в этих областях.
Если вы хотите что-то, что работает достаточно быстро из коробки для английского языка, одно предложение - это terp, который был разработан для оценки MT, но показал, что он хорошо работает для обнаружения перефразирования:
https://github.com/snover/terp
Большинство методов настроены для сравнения двух предложений, поэтому это не учитывает ваши потенциальные совпадения с частичными предложениями. Может быть, имеет смысл найти наиболее похожее предложение, а затем искать в этом предложении подстроки, которые лучше соответствуют предложению в целом?