Разобрать несколько файлов паркет с S3 выбрать в Python? - PullRequest
0 голосов
/ 16 октября 2019

Я пытаюсь прочитать несколько файлов паркета из одной подпапки S3 bucket с помощью boto3.

У меня не было проблем с чтением одного файла csv с python, но я не смог получитьэто для работы с несколькими чтениями файлов раньше.

Я видел предыдущие ответы, что это не поддерживается aws. Однако, как я понимаю, эта функциональность была реализована в конце 2018 года.

Итак, есть ли способ, используя мой рабочий код (показанный ниже), чтобы выполнить инструкцию s3 select для всего паркета? файлы в соответствующей папке, т.е. выбрать все строки из всех файлов?

Файлы в рабочей подпапке в ведре:

_success
file1.snapy.parquet
file2.snapy.parquet

код Python:

response = s3.select_object_content(
            Bucket='somebucket',
            Key= 'pathtosubfolder',
            ExpressionType='SQL', <br>
            InputSerialization = {'Parquet': {}},
            Expression="select * from s3object s ",
            OutputSerialization = {'CSV': {}},
            )

Я ожидал исхода SQL-заявления, однако получаю:

[ERROR] NoSuchKey: An error occurred (NoSuchKey) when calling the SelectObjectContent operation: The specified key does not exist.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...