Текстовый файл с разделителями и без них, которые необходимо преобразовать в файл данных pandas с заголовками столбцов. - PullRequest
1 голос
/ 11 октября 2019

Мне был отправлен текстовый файл с разделителями табуляции, столбцы объединены без пробелов - у файла нет заголовков. Я пытаюсь создать соответствующие столбцы в панде. Приведенный ниже код помог, но он не совсем дал мне окончательное состояние. Я борюсь с этим и буду признателен за любую помощь.

Оригинальный .txt файл

 2003040201629002A09/01/201920030001708534AGMT    11/10/199900000000045000.0006/13/2003                       
 00000000000008/16/201900000000000000                                                                                                          
 2003040201629002L4011470033NENND131-48       77TH   STREET                                                                                                                                                                                                 
 2003040201629002P1LIWANAG, MARIVIN                                                      3148 77TH STREET                                                                                                        USJACKSON HEIGHTS               NY113701825
 2003040201629002P1MAQUIRAN, JUDY                                                        3148 77TH STREET                                                                                                        USJACKSON HEIGHTS               NY113701825
 2003040201629002P2JPMORGAN CHASE BANK                                                   ONE CHASESQUARE S-4                                                                                                    USROCHESTER                     NY14643 

Желаемый формат

Doc_id            Document_date BankName            PartyName        Street#  StreetName city st zip
2003040201629002A 09/01/2019    JPMORGAN CHASE BANK LIWANAG, MARIVIN 131-48  77TH STREET JACKSON HEIGHTS NY14643 

Вот мой код

import pandas as pd

my_cols = [str(i) for i in range(9)]
df = pd.read_csv('C:/Users/smorris/python/201908_Monthly.txt', header=None, delim_whitespace=True, names=my_cols) 

df['state'] = df['8'].str.extract('([A-Za-z]+)') #
df['zip_code'] = df['7'].str.extract('([0-9]+)') #
df['date'] = df['0'].str.extract("([0-9]{2}/[0-9]{2}/[0-9]{4})", expand=True)                                                                                                                                                                                      
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...