Есть ли способ определить наиболее похожие переменные из ряда различных временных рядов? - PullRequest
0 голосов
/ 29 апреля 2020

У меня есть фрейм данных временного ряда с 27 различными переменными. В действительности все они представляют собой разные инструменты, которые регистрируют одну и ту же величину каждые 5 минут.

Я хочу знать, есть ли способ определить, какие (скажем, 5 самых похожих) переменных численно наиболее похожи.

Если бы я рассчитал это, я бы вычислил среднюю разницу между записанными значениями для каждой возможной пары инструментов за каждые 5 минут, а затем нашел бы 5 пар инструментов с наименьшей средней разницей. Выполнение этого вручную заняло бы много времени, так как мне нужно было бы рассчитать приблизительно 27 * 27 = 729 пар, а затем найти пары с наименьшей средней разницей.

Есть ли лучший / более простой способ сделать это?

Я рассмотрел корреляцию, но это не даст желаемого результата - это покажет, насколько коррелированы переменные, а не какие из них наиболее похожи численно.

Надеюсь, это имеет смысл .

1 Ответ

0 голосов
/ 29 апреля 2020

Поскольку это проблема измерения, возможно, вы хотите взглянуть на то, как инструменты неверно измеряют основную истину или фактическое явление. То есть, посмотрите на корреляцию ошибки измерения (определяемой как измерение минус основную истинность) между парами приборов.

Если вы создаете матрицу X, которая имеет 1 столбец для каждого прибора и 1 строку для каждого набора ошибок измерения в данный момент времени, то корреляция просто транспонируется (X) раз X. Если вы этого не сделаете имеют основную правду, может быть, среднее значение измерений является заменой. Если вы не измеряете все инструменты одновременно, вычисление корреляции между ошибками будет более сложным.

Поскольку это в основном вопрос для обсуждения, он действительно больше подходит для stats.stackexchange.com. Удачи и веселья, это интересная проблема.

...