Панды to_datetime () не обнаруживает столбцы - PullRequest
0 голосов
/ 02 июня 2018

У меня есть три столбца (h1, h2, h3), представляющих день, месяц и год соответственно, например,

import pandas as pd

df = pd.DataFrame({
    'h1': [1,2,3],
    'h2': [1,2,3],
    'h3': [2000,2001,2002]
})

при выполнении:

pd.to_datetime(df[['h1', 'h2', 'h3']])

это приводит к ошибке: ValueError: to assemble mappings requires at least that [year, month, day] be specified: [day,month,year] is missing но когда я переименовываю столбцы и затем выполняю pd.to_datetime, например,

df=df.rename(columns ={'h1':'day', 'h2':'month', 'h3': 'year'})
df["date_col"] =pd.to_datetime(df[['day','month','year']])

, я получаю столбец года. Должны ли мы делать это таким образом?или возможно предоставить формат, чтобы столбцы могли быть определены как день, месяц, год соответственно?Спасибо.

1 Ответ

0 голосов
/ 02 июня 2018

Подводя итог:

Ваш подход с переименованием столбцов уже разумен, как говорят документы:

Примеры

Сборка даты и времени из нескольких столбцовDataFrame.Ключи могут быть общими аббревиатурами, такими как ['year', 'month', 'day', 'minute', 'second', 'ms', 'us', 'ns']) или множественными числами того же самого

Но есть несколько альтернатив.По моему опыту, понимание списка с помощью zip довольно быстро (для небольших наборов).Приблизительно с 3000 строк данных переименование столбцов становится самым быстрым.Глядя на график, штраф за переименование затруднен для небольшого набора, но компенсирует большие.

Альтернативы

pd.to_datetime(['-'.join(map(str,i)) for i in zip(df['h3'],df['h2'],df['h1'])])
pd.to_datetime(['-'.join(i) for i in df[['h3', 'h2', 'h1']].values.astype(str)])
df[['h3','h2','h1']].astype(str).apply(lambda x: pd.to_datetime('-'.join(x)), 1)
pd.to_datetime(df[['h1','h2','h3']].rename(columns={'h1':'day', 'h2':'month','h3':'year'}))

Сроки Win10:

#df = pd.concat([df]*1000)
2.74 ms ± 33.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
8.08 ms ± 158 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
158 ms ± 472 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
2.64 ms ± 104 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Сроки MacBook Air:

100 loops, best of 3: 6.1 ms per loop
100 loops, best of 3: 12.7 ms per loop
1 loop, best of 3: 335 ms per loop
100 loops, best of 3: 4.7 ms per loop

Обновление с кодом, который я написал (рад, если у вас есть предложения по улучшению или любая библиотека, которая может помочь):

import pandas as pd
import numpy as np
import timeit
import matplotlib.pyplot as plt
from collections import defaultdict

df = pd.DataFrame({
    'h1': np.arange(1,11),
    'h2': np.arange(1,11),
    'h3': np.arange(2000,2010)
})

myfuncs = {
"pd.to_datetime(['-'.join(map(str,i)) for i in zip(df['h3'],df['h2'],df['h1'])])":
    lambda: pd.to_datetime(['-'.join(map(str,i)) for i in zip(df['h3'],df['h2'],df['h1'])]),
"pd.to_datetime(['-'.join(i) for i in df[['h3','h2', 'h1']].values.astype(str)])":
    lambda: pd.to_datetime(['-'.join(i) for i in df[['h3','h2', 'h1']].values.astype(str)]),
"pd.to_datetime(df[['h1','h2','h3']].rename(columns={'h1':'day','h2':'month','h3':'year'}))":
    lambda: pd.to_datetime(df[['h1','h2','h3']].rename(columns={'h1':'day','h2':'month','h3':'year'}))
}

d = defaultdict(dict)
step = 10
cont = True
while cont:
    lendf = len(df); print(lendf)
    for k,v in mycodes.items():
        iters = 1
        t = 0
        while t < 0.2:
            ts = timeit.repeat(v, number=iters, repeat=3)
            t = min(ts)
            iters *= 10
        d[k][lendf] = t/iters
        if t > 2: cont = False
    df = pd.concat([df]*step)

pd.DataFrame(d).plot().legend(loc='upper center', bbox_to_anchor=(0.5, -0.15))
plt.yscale('log'); plt.xscale('log'); plt.ylabel('seconds'); plt.xlabel('df rows')
plt.show()

Возвращает:

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...