У меня около 5400 файлов Excel в нескольких (под) папках, и я хочу загрузить их в один фрейм данных.Файлы имеют только 1 лист и могут содержать до 2000+ строк.Ожидается, что общее количество строк составит 2 миллиона или более.
Мой компьютер имеет SSD HD и 8 ГБ памяти и работает довольно быстро.Тем не менее, это займет несколько часов.Что-то не так со мной, код?Буду признателен за любые советы.
%%time
files = glob.glob('asyncDatas/**/*.xlsx',recursive=True)
df = pd.DataFrame()
for num, fname in enumerate(files, start=1):
print("File #{} | {}".format(num, fname))
if len(fname) > 0:
data = pd.read_excel(fname, 'Sheet0', index_col='Time', skiprows=3)
df = df.append(data)
df.head()
Я догадываюсь, что метод .append занимает слишком много времени, так как он, вероятно, динамически перераспределяет память?Может быть .concat () может быть лучше?