У меня есть файл Excel с более чем 100 листами.Мне нужно импортировать в панды и создать датафрейм.Проблема в том, что заголовки некоторых столбцов содержат пробелы, поэтому я получаю фрейм данных с несколькими дублирующимися столбцами.
Можно ли зарезать пробел в столбцах в OrderedDict?Я знаю, что могу использовать str.strip()
в кадре данных, но не могу найти ничего для OrderedDict.
У меня есть следующая структура в Excel:
sheet TEST:
'ID1' 'ID2' 'ID3' 'ID4'
1 A 2016 val val
2 B 2017 val val
3 C 2018 val val
sheet TEST2:
'ID1' 'ID2' 'ID3 ' 'ID4'
1 A 2016 val val
2 B 2017 val val
3 C 2018 val val
sheet TEST3:
'ID1' 'ID2' 'ID3' 'ID4 '
1 A 2016 val val
2 B 2017 val val
3 C 2018 val val
На данный момент я делаю следующее:
df = pd.read_excel (File location, sheet_name = ['TEST', 'TEST2', 'TEST3'])
df = pd.concat(df, axis=0, sort=False)
df = df.reset_index()
Вот что я получаю:
'ID1' 'ID2' 'ID3' 'ID4' 'ID3 ' 'ID4 '
1 A 2016 val val NaN NaN
2 B 2017 val val NaN NaN
3 C 2018 val val NaN NaN
4 A 2016 NaN val val NaN
5 B 2017 NaN val val NaN
6 C 2018 NaN val val NaN
7 A 2016 val NaN NaN val
8 B 2017 val NaN NaN val
9 C 2018 val NaN NaN val
Вот что мне нужно:
'ID1' 'ID2' 'ID3' 'ID4'
1 A 2016 val val
2 B 2017 val val
3 C 2018 val val
4 A 2016 val val
5 B 2017 val val
6 C 2018 val val
7 A 2016 val val
8 B 2017 val val
9 C 2018 val val
Большое спасибо