Вопрос о том, похожи ли два текста, является философским, если вы точно не укажете, что это должно означать.Рассмотрим струны «дом» и «мышь».С семантического уровня они не очень похожи, но они очень похожи по своему «внешнему виду» на 1002 *, потому что отличается только одна буква (и в этом случае вы можете пройти на расстояние Левенштейна *)1004 *).
Чтобы принять решение о сходстве, вам нужно соответствующее текстовое представление .Например, вы можете извлечь и сосчитать все н-грамм и сравнить два результирующих частотных вектора, используя меру подобия, например, косинусное сходство .Или вы можете основать слова в их корневой форме после удаления всех стоп-слов , суммировать их вхождения и использовать this в качестве входных данных для меры сходства.
Существует множество подходов и статей на эту тему, например, один о коротких текстах.В любом случае: чем выше уровень абстракции, на котором вы хотите решить, похожи ли два текста, тем сложнее будет это сделать.Я думаю, что ваш вопрос нетривиален (и, следовательно, мой ответ довольно абстрактен) ...; -)