Я сделал PCA и у меня совершенно разные кластеры. Я хотел бы использовать количественную меру того, насколько сходны точки в каждом кластере, а также насколько они похожи до и после события.
Мой вопрос заключается в том, технически правильно ли использовать попарно расстояния между точками в PCA как метричность сходства c? И если да, нужно ли рассчитывать расстояние по всем измерениям или я могу рассчитать расстояние между точками на двух ПК, которые четко разделяют данные?
Я предполагаю, что должен рассчитать попарное расстояние на всех ПК, если большая часть различий в данных не объясняется первыми двумя компьютерами, которые я использую.
Я думал, что смогу использовать попарные расстояния, но пост, указанный ниже, предполагает иное. И кажется, что сохраняются только большие попарные расстояния. Я читал различные ресурсы и получал смешанные выводы, основанные на моей интерпретации. Мне нужна ясность https://stats.stackexchange.com/questions/176672/what-is-meant-by-pca-preserving-only-large-pairwise-distances/176801#176801