Руководство по методу повторной выборки больших фреймов данных для поиска уникального среднемесячного значения - PullRequest
0 голосов
/ 08 июля 2020

Я пытался найти лучший метод для обработки большого набора данных, которые у меня есть.

Данные собираются ежедневно со связанным значением, и я обнаружил, что для поиска использую метод повторной выборки среднее значение за каждый месяц. Однако есть уникальные элементы, которые влияют на среднемесячное значение друг друга, и я не могу понять, как правильно их разделить.

import pandas as pd

#import data
df1 = pd.read_excel('r\file.xlsx')

#set index to Date for resample method
df_date = df1.set_index('Date')

#Resample by Month ('m') for mean
df_resample = df_date.resample('M').mean()

#here is where I am stuck. 

Я считаю, что мне нужно использовать groupby и nunique, но все попытки приводят к тому, что ежемесячные данные говорят мне, что у меня есть X # уникальных переменных, а не то, что среднее за месяц для каждой уникальной переменной, зависящей друг от друга.

...