Я пытаюсь прочитать несколько файлов паркета из одной подпапки S3 bucket с помощью boto3.
У меня не было проблем с чтением одного файла csv с python, но я не смог получитьэто для работы с несколькими чтениями файлов раньше.
Я видел предыдущие ответы, что это не поддерживается aws. Однако, как я понимаю, эта функциональность была реализована в конце 2018 года.
Итак, есть ли способ, используя мой рабочий код (показанный ниже), чтобы выполнить инструкцию s3 select
для всего паркета? файлы в соответствующей папке, т.е. выбрать все строки из всех файлов?
Файлы в рабочей подпапке в ведре:
_success
file1.snapy.parquet
file2.snapy.parquet
код Python:
response = s3.select_object_content(
Bucket='somebucket',
Key= 'pathtosubfolder',
ExpressionType='SQL', <br>
InputSerialization = {'Parquet': {}},
Expression="select * from s3object s ",
OutputSerialization = {'CSV': {}},
)
Я ожидал исхода SQL-заявления, однако получаю:
[ERROR] NoSuchKey: An error occurred (NoSuchKey) when calling the
SelectObjectContent operation: The specified key does not exist.