Расстояние Левенштейна - это подход для измерения разницы между словами, но не для фраз.
Есть ли хороший показатель расстояния для измерения различий между фразами?
Например, если фраза 1 состоит из n слов x1 x2 x_n, а фраза 2 состоит из m слов y1 y2 y_m. Я думаю, что они должны быть нечетко выровнены по словам, тогда выровненные слова должны иметь оценку того, насколько они похожи, и какое-то наказание за пробел должно быть применено для невыровненных слов. Эти положительные оценки и отрицательные оценки должны быть каким-либо образом агрегированы. Похоже, в этом есть какая-то эвристика.
Существует ли существующее решение для измерения сходства фраз? Python предпочтительнее, но другое решение тоже подойдет. Спасибо.