Сравнение двух данных временных рядов с разными единицами - PullRequest
0 голосов
/ 15 апреля 2019

Я работаю над независимым проектом, в котором я пытаюсь изучить, есть ли какая-либо корреляция между экономическим состоянием страны и популярными видами музыки. Итак, у меня есть два набора данных - один - это ежегодный темп роста ВВП США, с 1958 по 2018 год, и среднегодовая «валентность» музыки из топ-100 рекламных щитов, с 1958 по 2018. (валентность взята из Spotify API, который рассчитывается с использованием темп, громкость и т. д.)

Одна из многих проблем, с которыми я сталкиваюсь, заключается в том, что два набора данных имеют очень разные диапазоны значений. Темпы роста ВВП имеют минимум -2,5, максимум 7,2 и стандартное отклонение 2,11, где валентность составляет минимум 0,43, максимум 0,47 и среднеквадратичное отклонение 0,009. Я хотел как-то масштабировать одну или обе данные, чтобы сравнить одну с другой, но боялся, что нормализация может замаскировать значительную часть сигнала.

Есть ли эмпирическое правило в масштабировании наборов данных для лучшего сравнения друг с другом?

...