Большой фрейм данных имеет столбец date
.Используя pandas.read_csv(..., parse_dates=["date"])
для чтения данных, я предполагаю, что столбец был преобразован в эффективный тип данных для представления дат.
Теперь задача состоит в том, чтобы выбрать все элементы, попадающие в диапазон дат, например, ("2018-01-01", "2018-12-31")
.Это может быть очень быстро, если иметь столбец date
в отсортированном виде и использовать бинарный поиск для определения местоположения ограничивающих индексов.
Но как мне рассказать об этом пандам?Достаточно ли отсортировать по столбцу и выполнить запрос по нему?Должен ли я сделать это pandas.DateTimeIndex
и использовать .loc
?
Одним из возможных предостережений является то, что у предметов уже есть MultiIndex
, который необходимо сохранить в целости.Кроме того, я не хочу, чтобы в памяти было больше одной копии кадра данных.