Python объединять / добавлять только новые файлы Excel - PullRequest
0 голосов
/ 07 февраля 2020

Ниже приведен код, который я запускаю для объединения всех моих файлов Excel. CSV выполняется довольно быстро, однако объединение в Excel занимает больше времени. Я просто перетаскиваю новые файлы Excel в папку, запускаю код для вывода одного обновленного файла. Тем не менее, это начинает занимать больше времени. Что я могу сделать, чтобы добавить его только к новым файлам?

import os
import glob
import pandas as pd

os.chdir(r"myinputfolder")
extension = 'xlsx'
all_filenames = [i for i in glob.glob('*.{}'.format(extension))]
combined_xlsx = pd.concat([pd.read_excel(f,'Download') for f in all_filenames ])
os.chdir(r"myoutputfolder")
combined_xlsx.to_excel( "combined_xlsx.xlsx", index=False, encoding='utf-8-sig')

1 Ответ

0 голосов
/ 10 февраля 2020
import glob
import pandas as pd

#excel to csv 
source= r'C:\Users\'
dest= r'C:\Users\'
os.chdir(source)

for file in glob.glob("*.xlsx"):
       df = pd.read_excel(file, 'sheet1')
       df.to_csv(dest+file+'.csv', index=False)
       os.remove(file)
#append

os.chdir(r"C:\Users")
extension = 'csv'
all_Ph = [i for i in glob.glob('*.{}'.format(extension))]
Ph = pd.concat([pd.read_csv(f) for f in all_Ph ])
Ph.drop(Ph.columns[[0, 3, 7, 10]], axis=1, inplace=True)
os.chdir(r"C:\Users")
Ph.to_csv( "xhtfr.csv", index=False)
...