Алгоритм / Библиотека для измерения степени равенства строк - PullRequest
4 голосов
/ 08 октября 2011

Существует ли алгоритм, который дает две строки для получения степени равенства между ними, применяя метрики, которые могут быть предоставлены извне?Например, две строки "Plant code" и "PlantCode" могут быть равны 0,8, "Plant code" и "Plant" могут быть равны 0,6, "Truck no" и "shipment details" могут быть равны 0,6 (используя словарь синонимов, предоставляемый извне).Цифры составлены, но я надеюсь, что они поняли смысл.Существует ли такой алгоритм?Я бы предпочел, чтобы это было в виде библиотеки, а не реализовывать ее самостоятельно.Любая помощь будет принята с благодарностью.Спасибо.

Ответы [ 3 ]

4 голосов
/ 08 октября 2011

Попробуйте библиотеку Simmetrics .Он предоставляет целый ряд показателей схожести.

3 голосов
/ 08 октября 2011

Существует также алгоритм Левенштейна и его пример Java-реализация .Тем не менее, это не позволяет обеспечить внешние показатели.

3 голосов
/ 08 октября 2011

Может быть, может помочь библиотека google-diff-match-patch : В этой библиотеке реализован алгоритм сравнения Майера, который, как правило, считается лучшим из общего назначения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...