У меня есть массив строк, не много (может быть, несколько сотен), но часто длинные (несколько сотен символов).
Эти строки, как правило, бессмысленны и отличаются друг от друга ... но в группе из этих строк, может быть, 5 из 300, есть большое сходство. На самом деле это одна и та же строка, которая отличается форматированием, пунктуацией и несколькими словами.
Как я могу определить эту группу строк?
Кстати, я пишу в ruby, но если бы ничего другого, алгоритм в псевдокоде был бы в порядке.
спасибо