Я не гидролог и не статистик; возможно, вы захотите сделать репост на Перекрестная проверка .
Я с нетерпением жду возможности увидеть, что еще это сообщество хочет донести до стола.
Когда вы говорите среднее значение попарно масштабированных ковариаций, я предполагаю, что вы
получить матрицу результатов, где каждый элемент является средним значением
углерод и фосфор удобрений.
Эта матрица может использоваться для кластеризации путем преобразования диапазона в матрицу расстояний [-1,1] -> [+n,0]
. Например, вы могли бы взять среднее значение ко-дисперсии углерода и фосфора |-(1-x)|
, чтобы антикоррелированные образцы (-1) приближались к расстоянию 2, где высококоррелированные образцы (1) приближались к 0. Вы также можете брать евклидово расстояние между векторы ковариаций.
У меня есть скрипт здесь, на GitHub , который выдаст указанное число
кластеры с использованием спектральных, агломеративных или Kmeans кластеризации на пандах
и склеарн на питоне.
Также метод R hclust
(иерархическая кластеризация прихода) дает хорошие результаты, а у jmp есть приятный интерактивный иерархический вид кластера, где вы можете вращать узлы с помощью кнопок щелчка.
Проверка того, что выборки группируются вместе как в пространстве дисперсии, так и в физическом пространстве, проверяет зависимость в системе, но как насчет времени и синхронности!?
Для атаки на время я бы выполнил сравнительный оконный анализ синхронных подмножеств из вашего временного ряда (множественное число). Например, если ваши 2 сайта имеют год перекрывающихся данных с выборками 3 раза в день, вы можете рассчитать корреляцию по неделям для недель, начиная с каждого дня jan (1-7), jan (2-7) и т. Д. Распределение соответствует Ваш набор всех элементов во всех временных рядах ковариаций обеспечивает значения p для ковариации в заданные недели, чтобы определить, когда уровни углерода и фосфора значительно изменялись.