Нечеткое сравнение хэшированных строк в Python - PullRequest
0 голосов
/ 12 декабря 2018

Новичок здесь работает над приложением, которое сравнивает строки компании и находит совпадения, когда строки не точны.

Строки компании хэшируются, что усложняет задачу.Я хочу оценить, насколько строки похожи друг на друга после того, как они были хешированы.(Названия компаний хешируются по соображениям конфиденциальности.)

Пример: Apple Inc. Apple Inc

Я бы хотел идентифицировать эти строки (после хеширования) как находящиеся в определенном диапазонесходства друг с другом.

Я попробовал ssdeep для Python, но я получил 0 совпадений для приведенных выше строк.Кажется, это слишком чувствительно для таких коротких строк информации.

У кого-нибудь есть какие-либо другие рекомендации относительно того, что можно использовать с хеш-строками для нечетких сравнений?

Вывод из тестов ssdeep:

>>> hash1=ssdeep.hash('Apple Inc.')
>>> hash2=ssdeep.hash('Apple Inc')
>>> ssdeep.compare(hash1,hash2)
0

Спасибо всем!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...