Я согласен с https://stackoverflow.com/users/1167475/mortonjt, что документация не полностью объясняет индексацию промежуточных кластеров, в то время как я согласен с https://stackoverflow.com/users/1354844/dkar, что формат в противном случае точно объяснен.
Используя пример данных из этого вопроса: Учебник для scipy.cluster.hierarchy
A = np.array([[0.1, 2.5],
[1.5, .4 ],
[0.3, 1 ],
[1 , .8 ],
[0.5, 0 ],
[0 , 0.5],
[0.5, 0.5],
[2.7, 2 ],
[2.2, 3.1],
[3 , 2 ],
[3.2, 1.3]])
Матрица связи может быть построена с использованием единственного (то есть, ближайших совпадающих точек):
z = hac.linkage(a, method="single")
array([[ 7. , 9. , 0.3 , 2. ],
[ 4. , 6. , 0.5 , 2. ],
[ 5. , 12. , 0.5 , 3. ],
[ 2. , 13. , 0.53851648, 4. ],
[ 3. , 14. , 0.58309519, 5. ],
[ 1. , 15. , 0.64031242, 6. ],
[ 10. , 11. , 0.72801099, 3. ],
[ 8. , 17. , 1.2083046 , 4. ],
[ 0. , 16. , 1.5132746 , 7. ],
[ 18. , 19. , 1.92353841, 11. ]])
Как объясняется в документации, кластеры ниже n (здесь: 11) - это просто точки данных в исходной матрице А. Промежуточные кластеры, идущие вперед, индексируются последовательно.
Таким образом,кластеры 7 и 9 (первое объединение) объединяются в кластер 11, кластеры 4 и 6 - в 12. Затем наблюдаем линию три, объединяя кластеры 5 (из A) и 12 (из непоказанного промежуточного кластера 12), в результате чего внутри-Кластерное расстояние (WCD) 0,5.Единственный метод влечет за собой то, что новая WCS равна 0,5, что является расстоянием между A [5] и ближайшей точкой в кластере 12, A [4] и A [6].Давайте проверим:
In [198]: norm([a[5]-a[4]])
Out[198]: 0.70710678118654757
In [199]: norm([a[5]-a[6]])
Out[199]: 0.5
Теперь этот кластер должен быть промежуточным кластером 13, который впоследствии объединяется с A [2].Таким образом, новое расстояние должно быть ближайшим между точками A [2] и A [4,5,6].
In [200]: norm([a[2]-a[4]])
Out[200]: 1.019803902718557
In [201]: norm([a[2]-a[5]])
Out[201]: 0.58309518948452999
In [202]: norm([a[2]-a[6]])
Out[202]: 0.53851648071345048
, которое, как видно, также проверяет и объясняет промежуточный форматновых кластеров.