L oop чтобы получить размер файла, размер папки и размер каталога? - PullRequest
0 голосов
/ 01 мая 2020

Я пытаюсь сканировать каталог, а также все подпапки и файлы в папке. Я также хотел бы получить размер файла для каждой папки и файла. Я немного озадачен лучшей техникой для этого. Вот что у меня так далеко. Общий вывод каталога неправильный, как и общий размер папки.

import os
import pandas as pd
import time
from pathlib import Path

# sets the display so that when the code prints, it is readable
pd.set_option('display.max_rows', 3000)
pd.set_option('display.max_columns', 10)
pd.set_option('display.width', 3000)

# Initialize the dataframe
col_names = ['directory', 'file name', 'file size', 'file date', 'total in directory', 'total in folder']
files = pd.DataFrame(columns=col_names)

dir_path = Path('G:/OM/Permits')
for dirpath, dirnames, filenames in os.walk(dir_path):
    print(dirpath)
    files.loc[dirpath, 'directory'] = dirpath
    total_file = sum(os.path.getsize(f) for f in os.scandir(dirpath) if os.path.isfile(f))
    files.loc[total_file, 'total in directory'] = total_file
    for file_size in dirpath:
        total_file = round((sum(os.path.getsize(f) for f in os.scandir(dirpath) if os.path.isfile(f)) / 1048576), 3)
        files.loc[total_file, 'total in folder'] = total_file
    with os.scandir(dirpath) as i:
     for entry in i:
         if entry.is_file():
             print(entry.name)
             files.loc[entry.name, 'file name'] = entry.name
             file_size = round((os.path.getsize(entry) / 1048576),3)
             files.loc[file_size, 'file size'] = file_size
             files_date = time.strftime('%m/%d/%Y', time.gmtime(os.path.getmtime(entry)))
             files.loc[files_date, 'file date'] = files_date

df = pd.DataFrame(files)
df['file size'] = df['file size'].shift(periods=-1)
df['file date'] = df['file date'].shift(periods=-2)
df.reset_index(drop=True, inplace=True)
df.dropna(how='all')
print(df)
#df.to_csv('G Drive List of Files.csv')

Это часть моего вывода.

                                             directory                                          file name file size   file date total in directory total in folder
0                                         G:\OM\Permits                                                NaN       NaN         NaN                NaN             NaN
1                                                   NaN                                                NaN       NaN         NaN            1394256             NaN
2                                                   NaN                                                NaN       NaN         NaN                NaN            1.33
3                                                   NaN                           3-Letter_PermitCodes.pdf     0.136  04/01/2019                NaN             NaN

1 Ответ

2 голосов
/ 01 мая 2020

Вы можете попытаться добавить всю информацию в dict, а затем преобразовать ее в dataframe.

  1. Соберите информацию обо всех файлах, используя os.wal и для каждого файла:

    • Добавить сохранить directory, file_name , file_size и file_date, как вы сделали.
  2. Преобразование data в кадр данных

  3. Группировка всех directory и вычисление некоторых агрегация функция такая count и sum.

Код

dir_path = Path(r'G:/OM/Permits')

# Collect data for all files in the directory
data = {'directory': [], 'file_name': [], 'file_size': [], 'file_date': []}
for dirpath, dirnames, filenames in os.walk(dir_path):
    for f in filenames:
        filename = "{}\{}" .format(dirpath, f)
        data["directory"].append(dirpath)
        data["file_name"].append(f)
        data["file_size"].append(os.path.getsize(filename))
        data["file_date"].append(time.strftime('%m/%d/%Y', time.gmtime(os.path.getmtime(filename))))

# Transform data in dataframe
files = pd.DataFrame(data)
print(files)

# details per folder:
folders_stats = files.groupby("directory").agg({"file_name": 'count',
                                                "file_size": "sum"}) \
                    .rename(columns={"count": "total_files", "sum": "total_size"}) \
                    .reset_index()
print(folders_stats)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...