Имея два временных ряда: a.csv и b.csv , мне трудно интерпретировать и генерировать: "Гистограмма общего количества событий на пользователя для всех для всех30+ лет пользователей мужского пола "(в Python с использованием Pandas, matplotlib)
Пока это моя работа:
df = pd.read_csv("a.csv") ##
df1 = pd.read_csv("b.csv") ##
event_date = df['event_date'].astype('datetime64[ns]')
s1 = pd.merge(df, df1, how ='left', on=['user_id']) ## merge casedf and demodf
s2 = s1[['user_id', 'event_date', 'age', 'gender']].groupby(['user_id', 'event_date']).agg(['mean', 'count'])
counts = s1.groupby('user_id').size()
counts
d1f = counts.to_frame().reset_index()
d1f.head()
d1f = d1f.rename(columns={'user_id': 'USER-ID', 0: 'TOTAL-EVENTS'})
d1f.head()
d2f = pd.read_csv("users.csv")
# df2.head()
d2f = d2f.rename(columns={'age': 'AGE', 'gender': 'GENDER', 'user_id': 'USER-ID'})
d2f.head()
d1 = pd.merge(d1f, d2f, how ='left', on=['USER-ID'])
d1.head()
d2m = d1[(d1["AGE"] > 30) & (d1["GENDER"] == 'm')]
d2m
x = d2m['TOTAL-EVENTS']
num_bins = 30
n, bins, patches = plt.hist(x, num_bins, facecolor='blue', alpha=0.5)
plt.show()
Я думаю, что не только неправильно интерпретирую требуемую гистограмму, нотакже из-за того, что убил себя за то, что производил / готовил сюжет.
