Как использовать Pandas DateTime для определения различий во времени во время EDA - PullRequest
1 голос
/ 08 мая 2019

У меня есть пара миллионов объектов DateTime в пандах. Я не смог найти ничего в документации для исследовательского анализа данных (EDA).

Похоже, что каждая строка имеет одинаковое время в любом кадре данных:

DF1

Метка времени ('2018-02-20 00:00:00')

или

DF2 Метка времени ('2018-01-01 05:00:00')

есть ли способ использовать панд, чтобы пройти через каждый столбец и проверить, есть ли разница в часах / минутах / секундах?

Все, что я нашел, касается расчета различий между временами.

Я испробовал несколько основных приемов, но все, что я получил, это простые описательные числа.

min(data['date'])

data['date'].nunique()

Я пробовал:

 print(data['TIMESTAMP_UTC'])

Который показывает некоторые даты, которые имеют разные часы, но мне нужен способ управления этой информацией:

0         2018-01-16 05:00:00
1         2018-05-04 04:00:00
2         2018-10-22 04:00:00
3         2018-01-02 05:00:00
4         2018-01-03 05:00:00
5         2018-01-04 05:00:00
6         2018-01-05 05:00:00
......

В идеале я ищу что-то, что могло бы выдать .value_counts () дат, которые отличаются от всего остального

1 Ответ

0 голосов
/ 08 мая 2019

Вы можете использовать метод .apply() для преобразования формата из str в datetime. Затем вы используете datetime для обработки.

Чтобы преобразовать значения столбца в datetime:

df['TIMESTAMP_UTC'] = pd.to_datetime(df['TIMESTAMP_UTC'] )
df['TIMESTAMP_UTC'] = df['TIMESTAMP_UTC'].apply(lambda x: datetime.strptime(x, "%Y-%b-%d %H:%M:%S"))

тогда вы можете использовать мощность datetime для сравнения или извлечения подобной информации, например, для извлечения часов:

df['TIMESTAMP_UTC'].dt.day
...