Question

Я читаю в большом CSV-файле (10 ГБ +). Необработанные данные, загруженные из CSV, выглядят так:

  SYMBOL      DATE     TIME  PRICE  CORR COND
0     BA  20090501  9:29:46  40.24     0    F
1     BA  20090501  9:29:59  40.38     0    F
2     BA  20090501  9:30:01  40.31     0    O
3     BA  20090501  9:30:01  40.31     0    Q
4     BA  20090501  9:30:08  40.38     0    F

Моя цель - объединить столбцы DATE и TIME в один столбец DATE_TIME при чтении даты с помощью функции read_csv.

Загрузка данных в первую очередь и их ручное выполнение не возможны из-за ограничений памяти.

В настоящее время я использую

data = pd.read_csv('200905.csv',
                    parse_dates=[['DATE','TIME']], 
                    infer_datetime_format=True,
                  )

Однако использование по умолчанию dateutil.parser.parser, как указано выше, увеличивает время загрузки в 4 раза, а не просто загрузку необработанного CSV.

Многообещающим подходом может быть использование подхода поиска в следующем: Панды: медленное преобразование даты . Это потому, что в моем наборе данных много повторных дат.

Однако моя проблема заключается в том, как оптимально использовать повторяющуюся структуру столбца DATE при объединении в столбец DATE_TIME (в котором, вероятно, будет очень мало повторяющихся записей).

Быстрый разбор даты и времени с несколькими столбцами, read_csv

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Быстрый разбор даты и времени с несколькими столбцами, read_csv

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов