Не исказит ли результат повторное использование модели агломеративной кластеризации scikit-learn? - PullRequest
0 голосов
/ 22 октября 2019

Я использую иерархическую кластеризацию, используя одиночную, среднюю и полную связь для нескольких различных парных метрик расстояния. Мой код инициализирует модели кластеризации для трех типов связи.

sl_clust = AgglomerativeClustering(n_clusters=max_clusters, affinity='precomputed', linkage='single')
avg_clust = AgglomerativeClustering(n_clusters=max_clusters, affinity='precomputed', linkage='average')
comp_clust = AgglomerativeClustering(n_clusters=max_clusters, affinity='precomputed', linkage='complete')

Для каждой метрики расстояния я вычисляю попарные расстояния и использую подходящую модель для каждого типа связи с кластером. Например, для одиночного связывания с использованием Jaccard и Sorrenson-Dice:

dist_jaccard = pairwise_distances(newdata.values, metric="jaccard", n_jobs=4)
jaccard_sl_clust_pred = sl_clust.fit_predict(dist_jaccard)

dist_dice = pairwise_distances(newdata.values, metric='dice', n_jobs=4)
dice_sl_clust_pred = sl_clust.fit_predict(dist_dice)

Будут ли мои результаты точными, или более ранняя кластеризация изменила модель и исказила результаты позже?

...