
Каков наилучший способ анализа вышеуказанного файла Excel в кадре данных Pandas?Идея состоит в том, чтобы иметь возможность легко обновлять данные, добавлять столбцы, удалять строки.Например, для каждого источника я бы хотел оставить только output3.Затем для каждого столбца (2000, ...., 2013) разделите его на 2 с учетом условия (скажем, значение> 6000).
Ниже я попробовал следующее: сначала проанализировать и удалить ненужные строки, но это неудовлетворительно, поскольку мне пришлось переименовывать столбцы вручную.Так что это не выглядит оптимальным решением.Есть идея получше?
df = pd.read_excel("myExcel.xlsx", skiprows=2, sheet_name='1')
cols1 = list(df.columns)
cols1 = [str(x)[:4] for x in cols1]
cols2 = list(df.iloc[0,:])
cols2 = [str(x) for x in cols2]
cols = [x + "_" + y for x,y in zip(cols1,cols2)]
df.columns = cols
df = df.drop(["Unna_nan"], axis =1).rename(columns ={'Time_Origine':'Country','Unna_Output' : 'Series','Unna_Ccy' : 'Unit','2000_nan' : '2000','2001_nan': '2001','2002_nan':'2002','2003_nan' : '2003','2004_nan': '2004','2005_nan' : '2005','2006_nan' : '2006','2007_nan' : '2007','2008_nan' : '2008','2009_nan' : '2009','2010_nan' : '2010','2011_nan': '2011','2012_nan' : '2012','2013_nan':'2013','2014_nan':'2014','2015_nan':'2015','2016_nan':'2016','2017_nan':'2017'})
df.drop(0,inplace=True)
df.drop(df.tail(1).index, inplace=True)
idx = ['Country', 'Series', 'Unit']
df = df.set_index(idx)
df = df.query('Series == "Output3"')