Вы можете использовать это, чтобы проанализировать некоторую полезную информацию (например, размер файла, дату последнего изменения):
import pandas as pd
import subprocess
def get_s3_files(bucket):
files = subprocess.Popen(
args=[f'aws s3 ls s3://{bucket} --recursive'],
shell=True,
stdout=subprocess.PIPE
)
df = pd.DataFrame(files.communicate()[0].split('\n'))
df['file_last_modified'] = df[0].apply(
lambda x: x[:20]
)
df['file_size'] = df[0].apply(
lambda x: x[20:31]
).replace('', 0).astype(int)
df['file_name'] = df[0].apply(
lambda x: x[31:]
)
df = df[['file_name',
'file_last_modified',
'file_size',]]
return df.sort_values('file_size')
df = get_s3_files(bucket='YOUR_BUCKET')