Я знаю, что это не точный ответ на ваш вопрос, но вы знакомы с алгоритмом k-means ?
Я думаю, что даже Левенштейн может работать здесь, однако трудность заключается в том, какдля вычисления центроидов с таким подходом.
Возможно, вы можете разделить входной набор на непересекающиеся подмножества, а затем для каждого URL-адреса в каждом подмножестве вычислить расстояние до всех других URL-адресов в том же подмножестве и URL-адрес с наименьшей суммойрасстояний, должен быть центром тяжести (конечно, это зависит от того, насколько велик входной набор; для больших наборов это может быть не очень хорошей идеей).
Хорошая вещь о k-средних состоит в том, чточто вы можете начать с абсолютно случайного деления, а затем итеративно сделать его лучше.
Плохая вещь в k-означает, что вам нужно уточнить k
перед началом.Тем не менее, во время выполнения (возможно, когда ситуация стабилизировалась после первых нескольких итераций), вы можете измерить внутрисходство каждого набора, а если оно низкое, вы можете разделить набор на два подмножества и продолжить работу по одному и тому же алгоритму.