Я пытался найти лучший метод для обработки большого набора данных, которые у меня есть.
Данные собираются ежедневно со связанным значением, и я обнаружил, что для поиска использую метод повторной выборки среднее значение за каждый месяц. Однако есть уникальные элементы, которые влияют на среднемесячное значение друг друга, и я не могу понять, как правильно их разделить.
import pandas as pd
#import data
df1 = pd.read_excel('r\file.xlsx')
#set index to Date for resample method
df_date = df1.set_index('Date')
#Resample by Month ('m') for mean
df_resample = df_date.resample('M').mean()
#here is where I am stuck.
Я считаю, что мне нужно использовать groupby и nunique, но все попытки приводят к тому, что ежемесячные данные говорят мне, что у меня есть X # уникальных переменных, а не то, что среднее за месяц для каждой уникальной переменной, зависящей друг от друга.