Кодировать текст сопоставимым способом - PullRequest
0 голосов
/ 03 мая 2019

Пусть есть два текстовых документа, и мы хотим сравнить их так, чтобы они не были написаны буквой.Я ищу способ, который кодирует текст в хеш (если здесь подходит слово hash) длиной N (например, 256 символов) и позволяет сравнивать.

Например, пусть a='Text1', b='Text 1', c='Text 12' и d ='John'.Я хочу что-то вроде хеширования (здесь длина 5), как это

xyztrg
xyutrg
xyvtrg
abcdef

1 Ответ

0 голосов
/ 03 мая 2019

Я думаю, что вам нужно локальное хеширование: https://en.wikipedia.org/wiki/Locality-sensitive_hashing

Этот метод с высокой вероятностью хэширует подобные входные элементы в одни и те же "корзины".

В зависимости от того, какой язык программирования вы используете, существует множество реализаций

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...