Как импортировать грязный .txt и удалить метку времени, используя Pandas? - PullRequest
0 голосов
/ 01 ноября 2018

Я пытаюсь импортировать текстовый файл с огромными объемами данных транзакций. Обычно я могу открыть файл в Excel, а затем сохранить как CSV, но файл слишком велик, поэтому я использую Python 3:

df = pd.read_csv("file_name", sep = "\s+", dtype = str)

Это дает несколько пригодный для использования фрейм данных, но теперь у меня есть некоторые проблемы с датой и временем.

В текстовом файле они сохраняются как:

2016-12-11 00:00:00.000 "XXXX"  "XXXX"  "XXXXX" "X"

X - это другие данные. Когда я импортирую эти данные в Python, я получаю дату в виде индекса с меткой времени в столбце даты, за которой следуют другие переменные:

                VAR1.           VAR2.   VAR3.   VAR4.   VAR5. 
2016-12-11      00:00:00.000    XXXX    XXXX    XXXXX   X

Я попытался использовать следующее для создания нового индекса при импорте данных:

df = pd.read_csv("file_name", sep = "\s+", dtype = str, index_col = False)

Но это закончилось тем, что VAR5 оттолкнулся от фрейма данных и назначил метку времени для VAR2.

       VAR1.           VAR2.       VAR3.     VAR4.   VAR5. 
1   2016-12-11      00:00:00.000    XXXX    XXXX    XXXXX   

Я был бы очень признателен за любую помощь в импорте данных из текстового файла в python, отбрасывании метки времени и применении даты и времени к первому столбцу.

В файле txt есть несколько больших пробелов между переменными, и каждая строка заключена в "", например:

2016-12-11 00:00:00.000 "XXXX"  "XXX"   "XXXX"  "X"

Спасибо!

...