Фильтровать файл, прочитанный из S3 - PullRequest
0 голосов
/ 17 июня 2019

У меня есть несколько файлов s3, расположенных внутри папки ведра в формате, как показано ниже

s3://bucket/student_id=1/year=2019/month=06/day=09/file1.csv
s3://bucket/student_id=1/year=2019/month=06/day=07/file2.csv
s3://bucket/student_id=2/year=2019/month=06/day=10/file3.csv
s3://bucket/student_id=3/year=2019/month=06/day=11/file4.csv

В python с использованием boto3 я могу получить файл следующим образом:

s3: // bucket / student_id = / year = {arg_year} / month = {arg_month} / day = {arg_day} / *

где год, месяц и день передаются через параметры. Кроме того, есть ли способ определить, какие данные клиента обрабатываются или какие данные клиента завершены. подобно Обработка для student_id = 1 ........ Обработка для student_id = 2 На данный момент только я могу сделать, это получить все значения от s3, что занимает огромное время.

s3 = boto3.resource("s3")
bucket = s3.Bucket("usergram")
for obj in bucket.objects.all():
    print(obj.key)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...