Я пытаюсь реализовать алгоритм кластеризации Canopy вместе с K-Means. Я выполнил поиск в Интернете, в котором говорится, что нужно использовать кластеризацию Canopy, чтобы получить начальные исходные точки для подачи в K-средних, проблема в кластеризации Canopy, вам нужно указать 2 пороговых значения для купола: T1 и T2, где точки на внутреннем пороге сильно привязаны к этому куполу, а точки на более широком пороге менее привязаны к этому куполу. Как определяются эти пороговые значения или расстояния от центра купола?
Контекст проблемы:
Проблема, которую я пытаюсь решить, состоит в том, что у меня есть набор чисел, например, [1,30] или [1,250] с размерами набора около 50. Могут быть повторяющиеся элементы, и они могут быть числами с плавающей запятой, как ну, например, 8, 17,5, 17,5, 23, 66, ... Я хочу найти оптимальные кластеры или подмножества набора чисел.
Итак, если кластеризация Canopy с помощью K-средних является хорошим выбором, тогда у меня все еще остаются вопросы: как вы находите значения T1, T2 ?. Если это неправильный выбор, есть ли лучший, более простой, но эффективный алгоритм для использования?