Question

Часть процесса требует применения алгоритмов сходства строк.

Результаты этого процесса будут сохранены и произведены, скажем, SS_Dataset.

На основании этого набора данных необходимо будет принять дальнейшие решения.

Мои вопросы:

Должен ли я применить один или несколько алгоритмов подобия строк для создания SS_Dataset?
Есть ли какие-нибудь сравнения между алгоритмами, которые вычисляют подобие «расстояния» и «похоже на звуки»?

Дает ли одно семейство алгоритмов более точные результаты по сравнению с другим?Дает ли комбинация более точные результаты по сходству?

Можете ли вы порекомендовать реализации, с которыми вы работали?

Моя реализация будет включать пакеты из следующих библиотек

http://www.dcs.shef.ac.uk/~sam/simmetrics.html

http://jtmt.sourceforge.net/

redtuna · Answer 1 · 22 апреля 2010

Что лучше всего, зависит от того, что вы пытаетесь сделать. Soundex и минимальное расстояние редактирования (также известное как Левенштейн) широко используются, потому что их легко понять. Они хороши, когда вы пытаетесь разобраться с опечатками или орфографическими ошибками на входе. Извините, я не могу помочь, кроме того, что «вам придется самим экспериментировать с тем, насколько хорошо они работают для вашей конкретной цели».

Советы по метрикам сходства строк (Java). Расстояние, звучит как или комбо?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Советы по метрикам сходства строк (Java). Расстояние, звучит как или комбо?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы