Как отфильтровать numpy.ndarray по дате? - PullRequest
7 голосов
/ 29 августа 2010

У меня есть 2d numpy.array, где первый столбец содержит объекты datetime.datetime, а второй столбец - целые числа:

A = array([[2002-03-14 19:57:38, 197],
       [2002-03-17 16:31:33, 237],
       [2002-03-17 16:47:18, 238],
       [2002-03-17 18:29:31, 239],
       [2002-03-17 20:10:11, 240],
       [2002-03-18 16:18:08, 252],
       [2002-03-23 23:44:38, 327],
       [2002-03-24 09:52:26, 334],
       [2002-03-25 16:04:21, 352],
       [2002-03-25 18:53:48, 353]], dtype=object)

Что я хотел бы сделать, это выбрать все строки для определенной даты, например,

A[first_column.date()==datetime.date(2002,3,17)]
array([[2002-03-17 16:31:33, 237],
           [2002-03-17 16:47:18, 238],
           [2002-03-17 18:29:31, 239],
           [2002-03-17 20:10:11, 240]], dtype=object)

Как мне этого добиться?

Спасибо за понимание:)

Ответы [ 2 ]

4 голосов
/ 29 августа 2010

Вы можете сделать это:

from_date=datetime.datetime(2002,3,17,0,0,0)
to_date=from_date+datetime.timedelta(days=1)
idx=(A[:,0]>from_date) & (A[:,0]<=to_date)
print(A[idx])
# array([[2002-03-17 16:31:33, 237],
#        [2002-03-17 16:47:18, 238],
#        [2002-03-17 18:29:31, 239],
#        [2002-03-17 20:10:11, 240]], dtype=object)

A[:,0] - это первый столбец A.

К сожалению, сравнение A[:,0] с объектом datetime.date вызывает ошибку TypeError,Однако сравнение с объектом datetime.datetime работает:

In [63]: A[:,0]>datetime.datetime(2002,3,17,0,0,0)
Out[63]: array([False,  True,  True,  True,  True,  True,  True,  True,  True,  True], dtype=bool)

Также, к сожалению,

datetime.datetime(2002,3,17,0,0,0)<A[:,0]<=datetime.datetime(2002,3,18,0,0,0)

также вызывает ошибку TypeError, поскольку при этом вызывается метод datetime.datetime __lt__вместо метода __lt__ массива numpy.Возможно, это ошибка.

Во всяком случае, это не сложно обойти;Вы можете сказать

In [69]: (A[:,0]>datetime.datetime(2002,3,17,0,0,0)) & (A[:,0]<=datetime.datetime(2002,3,18,0,0,0))
Out[69]: array([False,  True,  True,  True,  True, False, False, False, False, False], dtype=bool)

Так как это дает вам логический массив, вы можете использовать его как «причудливый индекс» для A, что дает желаемый результат.

2 голосов
/ 29 августа 2010
from datetime import datetime as dt, timedelta as td
import numpy as np

# Create 2-d numpy array
d1 = dt.now()
d2 = dt.now()
d3 = dt.now() - td(1)
d4 = dt.now() - td(1)
d5 = d1 + td(1)
arr = np.array([[d1, 1], [d2, 2], [d3, 3], [d4, 4], [d5, 5]])

# Here we will extract all the data for today, so get date range in datetime
dtx = d1.replace(hour=0, minute=0, second=0, microsecond=0)
dty = dtx + td(hours=24)

# Condition 
cond = np.logical_and(arr[:, 0] >= dtx, arr[:, 0] < dty)

# Full array
print arr
# Extracted array for the range
print arr[cond, :]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...