«Кластеризация», скорее всего, приведет вас в неправильном направлении.
То, что вы, похоже, ищете, это правописание . Вы хотите объединить неправильно написанные версии, и для этого лучшими стратегиями обычно является преобразование строк в «фонетическую» версию (чтобы найти «звучащие» строки, которые легко смешивать, как в примере с алфавитом!), А также, по-видимому, на первый взгляд глупые подходы, которые сортируют все буквы и удаляют дубликаты - тогда и Google, и Goolge, и Goglee, и Googlee становятся «eglo» и могут быть сопоставлены.
Но я сомневаюсь, что вы найдете что-нибудь, что работает надежно автоматически , вместо этого будьте готовы потребовать взаимодействия с человеком. (В приведенном выше сопоставлении Lego также станет eglo и, следовательно, будет соответствовать Google. Может быть, лучше сохранить первую букву и применять ее только к оставшейся части).