организация фрейма данных на основе уникального идентификатора из глобального импорта - PullRequest
0 голосов
/ 15 января 2019

Я только начал использовать панд на этой неделе.

У меня большой проект, в котором мне нужно импортировать файлы нескольких типов (например, с несколькими листами, иногда txt и csv - с несколькими листами) из основной папки (несколько подпапок). Все эти файлы имеют одинаковые уникальные идентификаторы, но содержат разную информацию.

Я хочу импортировать и затем сгенерировать основной кадр данных, который связывает все файлы на основе указанного уникального идентификатора. Таким образом, все столбцы и данные табулируются на основе указанных идентификаторов.

Вот что я нашел:

import glob
import pandas as pd
import numpy as np

path = r'C: LINK TO MY FOLDER
excel_files = glob.glob('C:/Users/km/file1/**/*.txt', recursive=True)
csv_files = glob.glob('C:/Users/km/file1/**/*.csv, recursive=True)
txt_files = glob.glob('C:/Users/km/file1/**/*.excel, recursive=True)

теперь создайте фрейм данных на основе уникального идентификатора (с этим я в основном и борюсь)

master_database = pd.dataframe()
dfs = []
for filename in filenames:
    dfs.append(pd.read_xlsx(filenames))
df['unique_id'] = df.groupby(df.columns.tolist(), sort=False).ngroup() + 1

Я хочу, чтобы все столбцы данных (из всех источников) были организованы на основе столбца с уникальным идентификатором 1.

Затем я хочу использовать созданную базу данных master_database для моего анализа.

Мне придется сделать это для файлов отлично, csvs и txt в целом.

Любое направление очень ценится!

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...