Pandas Датафрейм и превосходные даты и времени проблемы с грязными учетными данными - PullRequest
0 голосов
/ 26 марта 2020

Я часто работаю с грязными учетными данными, которые часто находятся в файлах Excel. Когда я загружаю файл Excel в фрейм данных с помощью следующего, я получаю 00:00:00 в конце. Я хочу сохранить исходный формат даты, созданный бухгалтером, чтобы я мог извлечь его, но я не могу извлечь дату в виде строки, когда дата отформатирована следующим образом. Может ли кто-нибудь объяснить это исправленное поведение и как его предотвратить?

xls = pd.ExcelFile('GLQ1.xlsx')
df = pd.read_excel(xls, 'JNS512051', header=None, skiprows=8)
df.head()

0   01002-0 Bank-Current    NaN     NaN     NaN     NaN     NaN     NaN     NaN
1   NaN     NaN     NaN     NaN     Opening Balance Sep 30/18   NaN     NaN     666034
2   2018-10-01 00:00:00     CR  CR8729  CR8729  Fast Cash Receipts  3868.61     -   NaN
3   2018-10-01 00:00:00     CR  CR8732  CR8732  Fast Cash Receipts  13348.4     -   NaN
4   2018-10-02 00:00:00     CR  CR8733  CR8733  Fast Cash Receipts  9671.88     -   NaN

1 Ответ

0 голосов
/ 26 марта 2020

при импорте файлов xlsx вы можете легко запретить pandas интерпретировать возможные типы данных и оставить их как есть. Вы можете добиться этого, используя параметр dtypes в функции pd.read_excel() следующим образом:

df = pd.read_excel(xls, 'JNS512051', header=None, skiprows=8, dtypes=object)
...