oop через куски файлов данных - PullRequest
0 голосов
/ 24 апреля 2020

У меня много файлов, я разбил их на группы по пять человек. Я хотел бы провести 1013 * через каждую группу фрагментов. Я не хочу менять элемент один за другим, поскольку существует более 500 групп. Есть ли способ l oop через него?

import glob
import numpy as np
import pandas as pd

path = r'/Users/Documents/Data'

files= sorted(glob.glob(path + '/**/*.dat', recursive=True))

chunks = [files[x:x+5] for x in range(0, len(files), 5)]. #group 5 files at a time
chunks = [['file1.dat', 'file2.dat', 'file3.data', 'file4.dat', 'file5.dat'], 
['file6.dat', 'file7.dat', 'file8.dat', 'file9.dat', 'file10.dat'], [...]]```

Эта работа, но я не хочу вручную изменять элемент 500 раз.

df=[]
for i in chunks[0]: 
    indat = pd.read_fwf(i, skiprows=4, header=None, engine='python')
    indat = df.append(indat)
indat = pd.concat(df, axis=0, ignore_index=False)

Я хочу попробовать некоторые loop.

df=[]
for i, file in enumerate(chunks,1):
    indat = pd.read_fwf(file, skiprows=4, header=None, engine='python')
    indat = df.append(indat)

Моя попытка вызвала ошибку ниже:


  File "/Users/Documents/test.py", line 30, in <module>
    indat = pd.read_fwf(file, skiprows=4, header=None, engine='python')

  File "/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py", line 782, in read_fwf
    return _read(filepath_or_buffer, kwds)

  File "/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py", line 431, in _read
    filepath_or_buffer, encoding, compression

  File "/opt/anaconda3/lib/python3.7/site-packages/pandas/io/common.py", line 200, in get_filepath_or_buffer
    raise ValueError(msg)

ValueError: Invalid file path or buffer object type: <class 'list'>```

1 Ответ

0 голосов
/ 24 апреля 2020

Если вам нужны все данные в одном фрейме данных

  • Нет причин разбивать их на группы по 5
  • Использовать pathlib , который является частью стандартной библиотеки и обрабатывает пути как объект, а не строки
  • Создайте список фреймов данных с [pd.read_fsf(file) for file in files] и concat их.
  • axis=0, ignore_index=False не включены, потому что они по умолчанию значения
from pathlib import Path
import pandas as pd

f_path = Path('c:/Users/.../Documents/Data')
files = sorted(list(f_path.glob('**/*.dat')))

df = pd.concat([pd.read_fsf(file, skiprows=4, header=None, engine='python') for file in files])

Если вы хотите, чтобы для каждой группы имелся фрейм данных

  • Создайте dict фреймов данных, используя dict-comprehension
df_dict = {f'group_{i}': pd.concat([pd.read_fsf(file, skiprows=4, header=None, engine='python') for file in chunk]) for i, chunk in enumerate(chunks)}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...