Часть процесса требует применения алгоритмов сходства строк.
Результаты этого процесса будут сохранены и произведены, скажем, SS_Dataset.
На основании этого набора данных необходимо будет принять дальнейшие решения.
Мои вопросы:
Должен ли я применить один или несколько алгоритмов подобия строк для создания SS_Dataset?
Есть ли какие-нибудь сравнения между алгоритмами, которые вычисляют подобие «расстояния» и «похоже на звуки»?
Дает ли одно семейство алгоритмов более точные результаты по сравнению с другим?Дает ли комбинация более точные результаты по сходству?
- Можете ли вы порекомендовать реализации, с которыми вы работали?
Моя реализация будет включать пакеты из следующих библиотек
http://www.dcs.shef.ac.uk/~sam/simmetrics.html
http://jtmt.sourceforge.net/