Question

У меня много файлов, я разбил их на группы по пять человек. Я хотел бы провести 1013 * через каждую группу фрагментов. Я не хочу менять элемент один за другим, поскольку существует более 500 групп. Есть ли способ l oop через него?

import glob
import numpy as np
import pandas as pd

path = r'/Users/Documents/Data'

files= sorted(glob.glob(path + '/**/*.dat', recursive=True))

chunks = [files[x:x+5] for x in range(0, len(files), 5)]. #group 5 files at a time
chunks = [['file1.dat', 'file2.dat', 'file3.data', 'file4.dat', 'file5.dat'], 
['file6.dat', 'file7.dat', 'file8.dat', 'file9.dat', 'file10.dat'], [...]]```

Эта работа, но я не хочу вручную изменять элемент 500 раз.

df=[]
for i in chunks[0]: 
    indat = pd.read_fwf(i, skiprows=4, header=None, engine='python')
    indat = df.append(indat)
indat = pd.concat(df, axis=0, ignore_index=False)

Я хочу попробовать некоторые loop.

df=[]
for i, file in enumerate(chunks,1):
    indat = pd.read_fwf(file, skiprows=4, header=None, engine='python')
    indat = df.append(indat)

Моя попытка вызвала ошибку ниже:


  File "/Users/Documents/test.py", line 30, in <module>
    indat = pd.read_fwf(file, skiprows=4, header=None, engine='python')

  File "/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py", line 782, in read_fwf
    return _read(filepath_or_buffer, kwds)

  File "/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py", line 431, in _read
    filepath_or_buffer, encoding, compression

  File "/opt/anaconda3/lib/python3.7/site-packages/pandas/io/common.py", line 200, in get_filepath_or_buffer
    raise ValueError(msg)

ValueError: Invalid file path or buffer object type: <class 'list'>```

Trenton_M · Answer 1 · 24 апреля 2020

Если вам нужны все данные в одном фрейме данных

Нет причин разбивать их на группы по 5
Использовать pathlib , который является частью стандартной библиотеки и обрабатывает пути как объект, а не строки
Создайте список фреймов данных с [pd.read_fsf(file) for file in files] и concat их.
axis=0, ignore_index=False не включены, потому что они по умолчанию значения

from pathlib import Path
import pandas as pd

f_path = Path('c:/Users/.../Documents/Data')
files = sorted(list(f_path.glob('**/*.dat')))

df = pd.concat([pd.read_fsf(file, skiprows=4, header=None, engine='python') for file in files])

Если вы хотите, чтобы для каждой группы имелся фрейм данных

Создайте dict фреймов данных, используя dict-comprehension

df_dict = {f'group_{i}': pd.concat([pd.read_fsf(file, skiprows=4, header=None, engine='python') for file in chunk]) for i, chunk in enumerate(chunks)}

oop через куски файлов данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Если вам нужны все данные в одном фрейме данных

Если вы хотите, чтобы для каждой группы имелся фрейм данных

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

oop через куски файлов данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Если вам нужны все данные в одном фрейме данных

Если вы хотите, чтобы для каждой группы имелся фрейм данных

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов