У меня есть 100 с паркетных файлов в S3, я хочу проверить, все ли паркетные файлы созданы правильно или нет. По сути, нижестоящая система должна иметь возможность читать эти файлы паркета без каких-либо проблем. Перед тем, как нижестоящая система прочитает эти файлы, я хочу, чтобы мои скрипты на python прочитали пример, по 10 записей для каждого файла паркета.
Я использовал следующий синтаксис, чтобы прочитать файл паркета:
import pandas as pd
from boto3 import client
conn = client('s3')
buffer = io.BytesIO()
s3 = boto3.resource('s3')
result = s3.get_object(Bucket="my bucket", Key="my file location")
text = result["Body"].read().decode()
Нужен ваш ввод для чтения образцов записей, а не всех записей из файла паркета. Спасибо.