У меня есть около 400 таблиц, которые я хочу объединить на основе определенных столбцов (в некоторых таблицах могут быть не все столбцы по сравнению с column_list
- тогда должно быть NaN
)
Я использую код ниже. Он фильтрует интересующие столбцы, как и предполагалось, но при добавлении filter_df
к final
, тогда final
остается пустым. Любая помощь высоко ценится.
final = pd.DataFrame(columns=column_list)
files = os.listdir(path)
num = len(files)
for idx, file in enumerate(files):
df = pd.read_csv(os.path.join(path, file), sep=',', index_col=False, header=3)
df = df.rename(columns=lambda x: x.strip()) # Some Column Names have trailing space
filter_df = df.loc[:, df.columns.isin(column_list)]
final.append(filter_df, ignore_index=True)
print('Progress:',round((idx+1)/num,4)*100, '%')
pd.DataFrame.to_csv(final, base_path + 'Master_File.csv')