У меня есть фрейм данных временного ряда с 27 различными переменными. В действительности все они представляют собой разные инструменты, которые регистрируют одну и ту же величину каждые 5 минут.
Я хочу знать, есть ли способ определить, какие (скажем, 5 самых похожих) переменных численно наиболее похожи.
Если бы я рассчитал это, я бы вычислил среднюю разницу между записанными значениями для каждой возможной пары инструментов за каждые 5 минут, а затем нашел бы 5 пар инструментов с наименьшей средней разницей. Выполнение этого вручную заняло бы много времени, так как мне нужно было бы рассчитать приблизительно 27 * 27 = 729 пар, а затем найти пары с наименьшей средней разницей.
Есть ли лучший / более простой способ сделать это?
Я рассмотрел корреляцию, но это не даст желаемого результата - это покажет, насколько коррелированы переменные, а не какие из них наиболее похожи численно.
Надеюсь, это имеет смысл .