Советы по метрикам сходства строк (Java). Расстояние, звучит как или комбо? - PullRequest
2 голосов
/ 21 апреля 2010

Часть процесса требует применения алгоритмов сходства строк.

Результаты этого процесса будут сохранены и произведены, скажем, SS_Dataset.

На основании этого набора данных необходимо будет принять дальнейшие решения.

Мои вопросы:

  • Должен ли я применить один или несколько алгоритмов подобия строк для создания SS_Dataset?

  • Есть ли какие-нибудь сравнения между алгоритмами, которые вычисляют подобие «расстояния» и «похоже на звуки»?

Дает ли одно семейство алгоритмов более точные результаты по сравнению с другим?Дает ли комбинация более точные результаты по сходству?

  • Можете ли вы порекомендовать реализации, с которыми вы работали?

Моя реализация будет включать пакеты из следующих библиотек

http://www.dcs.shef.ac.uk/~sam/simmetrics.html

http://jtmt.sourceforge.net/

1 Ответ

0 голосов
/ 22 апреля 2010

Что лучше всего, зависит от того, что вы пытаетесь сделать. Soundex и минимальное расстояние редактирования (также известное как Левенштейн) широко используются, потому что их легко понять. Они хороши, когда вы пытаетесь разобраться с опечатками или орфографическими ошибками на входе. Извините, я не могу помочь, кроме того, что «вам придется самим экспериментировать с тем, насколько хорошо они работают для вашей конкретной цели».

...