Привет! Я использую некоторый код python, который вычисляет корреляцию между двумя столбцами в моем pandas кадре данных, в то время как он группируется по дате и идентификатору. Например, мой df выглядит так:
date id z x y
1 A z1 x1 y1
1 A z2 x2 y2
....
....
1 D z_n-1 x2 y2
1 D z_n x2 y2
Старайтесь не фокусироваться на подписчиках или на том, что на самом деле означают данные. Скорее сфокусируйтесь на общей форме. Для данной даты у меня есть несколько повторных наблюдений для данного идентификатора, и я хочу вычислить корреляцию между «x» и «y» для каждого идентификатора на каждую дату. У моей df около 2,4 миллиона строк, что примерно разделено на 200 дат.
Мой код для получения корреляций, очевидно, работает (это кажется тривиальной проблемой, если я подожду достаточно долго), но он работает уже около 7 часов, и я хотел бы знать, написал ли кто-нибудь что-то нестандартное, что может работать быстрее? Во всяком случае, вот код
corr_df = df.groupby(['date','id'])['x'].corr(df['y'])