Есть способ сгенерировать какой-то хеш текста для сравнения? - PullRequest
3 голосов
/ 29 ноября 2011

Я не знаю, возможно ли то, что я хочу, но вот так:

Предположим, у меня есть несколько фраз, я хочу создать какое-то меньшее количество строк этой фразы, которые могут представлять текст.Я буду применять это для многих текстов.После этого я сравниваю полученные строки, чтобы увидеть, насколько текст отличается от другого.

Мне не нужно знать, где есть различия, или получить исходную строку, мне нужно только это для сравнения строк.

Есть что-то подобное?Я усложняю решение?

1 Ответ

4 голосов
/ 29 ноября 2011

Существует такая техника, которая называется нечетким хешированием.Взгляните на ssdeep .Вас также может заинтересовать статья Identifying almost identical files using context triggered piecewise hashing.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...