Я пытаюсь импортировать текстовый файл с огромными объемами данных транзакций. Обычно я могу открыть файл в Excel, а затем сохранить как CSV, но файл слишком велик, поэтому я использую Python 3:
df = pd.read_csv("file_name", sep = "\s+", dtype = str)
Это дает несколько пригодный для использования фрейм данных, но теперь у меня есть некоторые проблемы с датой и временем.
В текстовом файле они сохраняются как:
2016-12-11 00:00:00.000 "XXXX" "XXXX" "XXXXX" "X"
X - это другие данные. Когда я импортирую эти данные в Python, я получаю дату в виде индекса с меткой времени в столбце даты, за которой следуют другие переменные:
VAR1. VAR2. VAR3. VAR4. VAR5.
2016-12-11 00:00:00.000 XXXX XXXX XXXXX X
Я попытался использовать следующее для создания нового индекса при импорте данных:
df = pd.read_csv("file_name", sep = "\s+", dtype = str, index_col = False)
Но это закончилось тем, что VAR5 оттолкнулся от фрейма данных и назначил метку времени для VAR2.
VAR1. VAR2. VAR3. VAR4. VAR5.
1 2016-12-11 00:00:00.000 XXXX XXXX XXXXX
Я был бы очень признателен за любую помощь в импорте данных из текстового файла в python, отбрасывании метки времени и применении даты и времени к первому столбцу.
В файле txt есть несколько больших пробелов между переменными, и каждая строка заключена в "", например:
2016-12-11 00:00:00.000 "XXXX" "XXX" "XXXX" "X"
Спасибо!