Менее известные метрики сходства строк - PullRequest
4 голосов
/ 31 июля 2009

Это может быть трудный вопрос, но я что-то исследую, и мне было интересно, знает ли кто-нибудь о "менее известных" метриках сходства строк (см. эта страница для примеров известных) , Я был в Википедии, и у Sourceforge есть хорошая библиотека под названием Simmetrics с набором алгоритмов строковых метрик . Кто-нибудь проводил какие-то исследования или нашел какой-то строковый алгоритм, который привлек ваше внимание как мало используемый?

Спасибо.

Ответы [ 4 ]

2 голосов
/ 02 августа 2009

Эта страница (LingPipe) дает несколько советов о сравнении строк. Это говорит о расстоянии Дамерау-Левенштейна, алгоритме Нидлмана-Вунша, расстоянии Жакара, расстоянии Яро-Винклера, расстоянии TF / IDF. Расстояние понимается как сходство между двумя строками.

В конце страницы приводятся ссылки, а также готовая к использованию реализация Java ( загрузка и лицензия )

1 голос
/ 03 августа 2009

Выезд http://us.php.net/manual/en/function.levenshtein.php включая все ссылки "Смотрите также" и все комментарии пользователей.

1 голос
/ 01 августа 2009

Существует также класс фонетических алгоритмов (например, Soundex ), которые могут добавить в ваш список.

0 голосов
/ 14 октября 2011

SpSim (сходство правописания) - это мера сходства строк, предназначенная для идентификации родственных языков (слов, имеющих одинаковое происхождение).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...