Самый быстрый способ получить среднее время - PullRequest
0 голосов
/ 25 августа 2018

У меня есть набор данных с именем и датой и временем в виде столбцов. Есть несколько записей имени с разными датами и временем

например.вход:

 name    datetime
 ------------------
  A1  2018-07-20 17:04:20.486
  A1  2018-07-18 17:48:30.910
  A1  2018-07-18 19:13:05.636
  A1  2018-07-17 15:01:30.976
  A1  2018-07-17 18:21:13.113
  B7  2018-07-18 16:38:33.410
  B7  2018-07-18 17:30:46.893
  B7  2018-07-17 15:45:48.673
  B7  2018-07-18 03:01:41.826
  B7  2018-07-19 18:12:40.923
  C3  2018-07-18 19:07:41.973
  C3  2018-07-17 16:59:51.646
  C3  2018-07-18 19:41:41.280
  C3  2018-07-20 16:01:44.543
  C3  2018-07-20 16:01:22.860

Мне нужно просто определить среднее / среднее время для каждого имени

пример вывода:

name    avg_time
 B7    14:13:54
 A1    17:29:44
 C3    17:34:28

Решение # 1

Я попытался заменить дату текущей датой, а затем выполнить групповую обработку по имени и получить среднее время

today = pd.datetime.today()
data['datetime'] = data['datetime'] .apply(lambda x: x.replace(day=today.day, month=today.month, year=today.year))

for name, group in data.groupby(by='name'):
    avg_datetime(group['datetime'])

# avg_time calculation
def avg_datetime(series):
    """
    takes a series of datetime and returns the avarage time in '%H:%M' format
    :param series:
    :return:
    """
    series = pd.to_datetime(series)
    dt_min = series.min()
    deltas = [x - dt_min for x in series]
    avg_datetime = dt_min + functools.reduce(operator.add, deltas) / len(deltas)
    return avg_datetime.time().strftime('%H:%M')

Решение # 2

Я также попытался преобразовать время вобщее количество минут, а затем вычислите среднее значение и верните обратно формат

# convert to total minutes
dt_index = pd.DatetimeIndex(pd.to_datetime(data['datetime']).dt.strftime('%H:%M'))
data['total_mins'] = dt_index.hour * 60 + dt_index.minute

mean_mins_list = [[name, int(group['total_mins'].mean())]
                  for name, group in data.groupby(by='name', sort=False, as_index=False)]
avg_time_df = pd.DataFrame(mean_mins_list, columns=['name', 'avg_time'])

# revert to HH:MM format
avg_time_df['avg_time'] = avg_time_df['avg_time'].apply(lambda x: str(math.floor(x / 60)) + ':' + str(x % 60))

мой набор данных очень большой, ~ 10 миллионов уникальных имен, какой самый быстрый способ выполнить эту операцию

1 Ответ

0 голосов
/ 25 августа 2018

Вот один из вариантов.

Рассчитать общее количество секунд для каждого datetime с начала этого дня. Затем сгруппируйте и вычислите среднее значение, так как они являются просто числами в этой точке. Наконец, конвертируйте обратно в datetime и просто выберите часть времени.

import pandas as pd

df['secs'] = (df.datetime - df.datetime.dt.normalize()).dt.total_seconds()
pd.to_datetime(df.groupby('name').secs.mean(), unit='s').dt.time

Выход:

name
A1    17:29:44.224200
B7    14:13:54.345000
C3    17:34:28.460400
Name: secs, dtype: object
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...