Я не думаю, что кластеризация - это то, что вы должны здесь делать.
Потому что такие методы, как k-mrans заставляют каждую точку в «кластер». И это, вероятно, не то, что вы хотите.
Вы также столкнетесь с проблемой, что транзитивно почти все «похоже». Существует множество игр, в которых нужно превращать одно слово в другое по одной букве за раз.
Нестабильная попытка сначала определить некоторые хорошие значения (например, по частоте), а затем решить, с каким допуском объединить альтернативы. Но без переходных операций. Это проще , чем кластеризация и быстрее .