Методы определения временной ковариации среди многих временных рядов? - PullRequest
0 голосов
/ 02 мая 2018

Мы пытаемся измерить синхронность вариаций химического состава воды среди нескольких сотен участков. Для каждого сайта у нас есть временной ряд концентрации.

Мы хотели бы количественно оценить общую временную ковариацию (концентрации повышаются и понижаются одновременно) между участками и заинтересованы в различных статистических подходах к этому.

Различные химические параметры имеют очень разные абсолютные концентрации (например, 1-100 ч / млн для углерода, от 0,001 до 1 ч / млн для фосфора), поэтому необходим относительный показатель. Мы сделали это ранее со средним значением попарно масштабированных ковариаций, но, безусловно, есть более элегантный метод.

Мы рады использовать R, Pyton или Matlab. Спасибо!

1 Ответ

0 голосов
/ 02 мая 2018

Я не гидролог и не статистик; возможно, вы захотите сделать репост на Перекрестная проверка .

Я с нетерпением жду возможности увидеть, что еще это сообщество хочет донести до стола.

Когда вы говорите среднее значение попарно масштабированных ковариаций, я предполагаю, что вы получить матрицу результатов, где каждый элемент является средним значением углерод и фосфор удобрений.

Эта матрица может использоваться для кластеризации путем преобразования диапазона в матрицу расстояний [-1,1] -> [+n,0]. Например, вы могли бы взять среднее значение ко-дисперсии углерода и фосфора |-(1-x)|, чтобы антикоррелированные образцы (-1) приближались к расстоянию 2, где высококоррелированные образцы (1) приближались к 0. Вы также можете брать евклидово расстояние между векторы ковариаций.

У меня есть скрипт здесь, на GitHub , который выдаст указанное число кластеры с использованием спектральных, агломеративных или Kmeans кластеризации на пандах и склеарн на питоне.

Также метод R hclust (иерархическая кластеризация прихода) дает хорошие результаты, а у jmp есть приятный интерактивный иерархический вид кластера, где вы можете вращать узлы с помощью кнопок щелчка.

Проверка того, что выборки группируются вместе как в пространстве дисперсии, так и в физическом пространстве, проверяет зависимость в системе, но как насчет времени и синхронности!?

Для атаки на время я бы выполнил сравнительный оконный анализ синхронных подмножеств из вашего временного ряда (множественное число). Например, если ваши 2 сайта имеют год перекрывающихся данных с выборками 3 раза в день, вы можете рассчитать корреляцию по неделям для недель, начиная с каждого дня jan (1-7), jan (2-7) и т. Д. Распределение соответствует Ваш набор всех элементов во всех временных рядах ковариаций обеспечивает значения p для ковариации в заданные недели, чтобы определить, когда уровни углерода и фосфора значительно изменялись.

...