Я только начал использовать панд на этой неделе.
У меня большой проект, в котором мне нужно импортировать файлы нескольких типов (например, с несколькими листами, иногда txt и csv - с несколькими листами) из основной папки (несколько подпапок). Все эти файлы имеют одинаковые уникальные идентификаторы, но содержат разную информацию.
Я хочу импортировать и затем сгенерировать основной кадр данных, который связывает все файлы на основе указанного уникального идентификатора. Таким образом, все столбцы и данные табулируются на основе указанных идентификаторов.
Вот что я нашел:
import glob
import pandas as pd
import numpy as np
path = r'C: LINK TO MY FOLDER
excel_files = glob.glob('C:/Users/km/file1/**/*.txt', recursive=True)
csv_files = glob.glob('C:/Users/km/file1/**/*.csv, recursive=True)
txt_files = glob.glob('C:/Users/km/file1/**/*.excel, recursive=True)
теперь создайте фрейм данных на основе уникального идентификатора (с этим я в основном и борюсь)
master_database = pd.dataframe()
dfs = []
for filename in filenames:
dfs.append(pd.read_xlsx(filenames))
df['unique_id'] = df.groupby(df.columns.tolist(), sort=False).ngroup() + 1
Я хочу, чтобы все столбцы данных (из всех источников) были организованы на основе столбца с уникальным идентификатором 1.
Затем я хочу использовать созданную базу данных master_database для моего анализа.
Мне придется сделать это для файлов отлично, csvs и txt в целом.
Любое направление очень ценится!
Спасибо!