Да, метрики сходства - хорошие времена. Короткий ответ: вы должны попробовать их все и оптимизировать с учетом RMSE, MAE, набора ширины возврата и т. Д.
Кажется, есть различие между расстоянием редактирования и остальной частью этих метрик, поскольку я ожидаю, что алгоритм EditDistance будет работать на самих строках.
Как работает ваш StringToWordVector? Сначала ответьте на этот вопрос, а затем используйте этот ответ, чтобы стимулировать такие мысли, как: что я хочу, чтобы сходство между двумя словами означало в моем приложении (например, семантическое значение перевешивает длину слова).
И пока вы используете StringVectorizer, может показаться, что вы свободны в рассмотрении более распространенных метрик сходства, таких как LogLikelihood, Pearson и Cosine (соответственно). Я думаю, что это стоит делать, поскольку ни одна из перечисленных вами метрик сходства не используется и не изучалась всерьез в литературе, насколько мне известно.
Да будет сходство с тобой!