Pandas timeseries: средняя колонка отметки времени - PullRequest
0 голосов
/ 11 июня 2018

у меня есть датафрейм, который выглядит следующим образом:

ID      Date
16911   2017-04-15
16911   2017-04-25
16911   2017-04-27
16911   2017-05-08
16911   2017-05-20
16911   2017-05-25
16911   2017-08-08
16911   2017-08-11
16911   2017-08-24
16912   2017-04-15
16912   2017-04-25
16812   2017-04-27
16812   2017-05-08
16812   2017-05-20
16812   2017-05-25
16812   2017-08-08
16812   2017-08-11

дата отсортирована, я хочу найти разницу между временными метками и найти среднее для каждого идентификатора.

также,

предположим, для идентификатора - 16911, я хочу список разницы в датах, например, -> list a;

16911   2017-04-15
16911   2017-04-25
difference between the above two dates is 10, so a is
a = [10]

16911   2017-04-25
16911   2017-04-27
difference between the above two dates is 2, so a is
a=[10,2]

16911   2017-04-27
16911   2017-05-08
difference between the above two dates is 11(assuming), so a is
a=[10,2,11]

, поэтому окончательный результат должен быть:

ID      Average_Day Diff
16911   3 days      [10,2,11]

1 Ответ

0 голосов
/ 11 июня 2018

Используйте groupby с diff и mean:

df = df.groupby('ID')['Date'].apply(lambda x: x.diff().mean()).reset_index()
print (df)
      ID             Date
0  16812 21 days 04:48:00
1  16911 16 days 09:00:00
2  16912 10 days 00:00:00

Если необходимо преобразовать временные интервалы, например, в days:

df = df.groupby('ID')['Date'].apply(lambda x: x.diff().mean().days).reset_index()
print (df)
      ID  Date
0  16812    21
1  16911    16
2  16912    10

РЕДАКТИРОВАТЬ:

#create difference column per ID
df['new'] = df.groupby('ID')['Date'].diff().dt.days
#remove NaT rows (first for each group)
df = df.dropna(subset=['new'])
#convert to integers
df['new'] = df['new'].astype(int)
#aggreagte lists and mean
df = df.groupby('ID', sort=False)['new'].agg([('val', lambda x: x.tolist()),('avg', 'mean')])
print (df)

ID                                          
16911  [10, 2, 11, 12, 5, 75, 3, 13]  16.375
16912                           [10]  10.000
16812             [11, 12, 5, 75, 3]  21.200
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...