Я читаю в большом CSV-файле (10 ГБ +). Необработанные данные, загруженные из CSV, выглядят так:
SYMBOL DATE TIME PRICE CORR COND
0 BA 20090501 9:29:46 40.24 0 F
1 BA 20090501 9:29:59 40.38 0 F
2 BA 20090501 9:30:01 40.31 0 O
3 BA 20090501 9:30:01 40.31 0 Q
4 BA 20090501 9:30:08 40.38 0 F
Моя цель - объединить столбцы DATE и TIME в один столбец DATE_TIME при чтении даты с помощью функции read_csv.
Загрузка данных в первую очередь и их ручное выполнение не возможны из-за ограничений памяти.
В настоящее время я использую
data = pd.read_csv('200905.csv',
parse_dates=[['DATE','TIME']],
infer_datetime_format=True,
)
Однако использование по умолчанию dateutil.parser.parser
, как указано выше, увеличивает время загрузки в 4 раза, а не просто загрузку необработанного CSV.
Многообещающим подходом может быть использование подхода поиска в следующем:
Панды: медленное преобразование даты . Это потому, что в моем наборе данных много повторных дат.
Однако моя проблема заключается в том, как оптимально использовать повторяющуюся структуру столбца DATE при объединении в столбец DATE_TIME (в котором, вероятно, будет очень мало повторяющихся записей).