Как я могу хранить данные в словаре данных в Python, когда заголовки в смешанном порядке - PullRequest
4 голосов
/ 06 июня 2011

Я хотел бы сохранить следующие данные в словаре данных, чтобы я мог легко экспортировать их в файл CSV. Проблема в том, что столбцы для каждого идентификатора школы не всегда находятся в одном и том же порядке:

text = """
school id= 28392
name|year|degree|age|race
Susan A. Smith|2007|PhD|27|white
Fred Collins|2006|PhD|26|hispanic
Amber Real|2007|MBA|28|white
Mike Lee|2003|PhD|27|white

school id= 273533123
name|year|age|race|degree
John B. Black|2003|27|hispanic|MBA
Steven Smith|2005|28|black|PhD
Jacob Waters|2003|25|hispanic|MBA

school id = 3452332
name|year|race|age|degree
Peter Hintze|2002|white|27|Bachelors
Ann Graden|2004|black|25|MBA
Bryan Stewart|2004|white|28|PhD
"""

Я бы хотел в конечном итоге вывести все данные в файл CSV со следующими заголовками:

school id|year|name|age|race|degree

Могу ли я сделать это на Python?

1 Ответ

6 голосов
/ 06 июня 2011

Это на самом деле кажется довольно простым.Обработайте файл в структуру данных, затем экспортируйте его в CSV.

school = None
headers = None
data = {}
for line in text.splitlines():
    if line.startswith("school id"):
        school = line.split('=')[1].strip()
        headers = None
        continue
    if school is not None and headers is None:
        headers = line.split('|')
        continue

    if school is not None and headers is not None and line:
        if not school in data:
            data[school] = []
        datum = dict(zip(headers, line.split('|')))
        data[school].append(datum)    

In [29]: data
Out[29]: 
{'273533123': [{'age': '27',
                'degree': 'MBA',
                'name': 'John B. Black',
                'race': 'hispanic',
                'year': '2003'},
               {'age': '28',
                'degree': 'PhD',
                'name': 'Steven Smith',
                'race': 'black',
                'year': '2005'},
               {'age': '25',
                'degree': 'MBA',
                'name': 'Jacob Waters',
                'race': 'hispanic',
                'year': '2003'}],
 '28392': [{'age': '27',
            'degree': 'PhD',
            'name': 'Susan A. Smith',
            'race': 'white',
            'year': '2007'},
           {'age': '26',
            'degree': 'PhD',
            'name': 'Fred Collins',
            'race': 'hispanic',
            'year': '2006'},
           {'age': '28',
            'degree': 'MBA',
            'name': 'Amber Real',
            'race': 'white',
            'year': '2007'},
           {'age': '27',
            'degree': 'PhD',
            'name': 'Mike Lee',
            'race': 'white',
            'year': '2003'}],
 '3452332': [{'age': '27',
              'degree': 'Bachelors',
              'name': 'Peter Hintze',
              'race': 'white',
              'year': '2002'},
             {'age': '25',
              'degree': 'MBA',
              'name': 'Ann Graden',
              'race': 'black',
              'year': '2004'},
             {'age': '28',
              'degree': 'PhD',
              'name': 'Bryan Stewart',
              'race': 'white',
              'year': '2004'}]}    
...