Быстрый разбор даты и времени с несколькими столбцами, read_csv - PullRequest
0 голосов
/ 11 июня 2019

Я читаю в большом CSV-файле (10 ГБ +). Необработанные данные, загруженные из CSV, выглядят так:

  SYMBOL      DATE     TIME  PRICE  CORR COND
0     BA  20090501  9:29:46  40.24     0    F
1     BA  20090501  9:29:59  40.38     0    F
2     BA  20090501  9:30:01  40.31     0    O
3     BA  20090501  9:30:01  40.31     0    Q
4     BA  20090501  9:30:08  40.38     0    F

Моя цель - объединить столбцы DATE и TIME в один столбец DATE_TIME при чтении даты с помощью функции read_csv.

Загрузка данных в первую очередь и их ручное выполнение не возможны из-за ограничений памяти.

В настоящее время я использую

data = pd.read_csv('200905.csv',
                    parse_dates=[['DATE','TIME']], 
                    infer_datetime_format=True,
                  )

Однако использование по умолчанию dateutil.parser.parser, как указано выше, увеличивает время загрузки в 4 раза, а не просто загрузку необработанного CSV.

Многообещающим подходом может быть использование подхода поиска в следующем: Панды: медленное преобразование даты . Это потому, что в моем наборе данных много повторных дат.

Однако моя проблема заключается в том, как оптимально использовать повторяющуюся структуру столбца DATE при объединении в столбец DATE_TIME (в котором, вероятно, будет очень мало повторяющихся записей).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...