Question

Есть способ создать блок данных с помощью некоторого ключа (для предотвращения перемешивания) и сохранить его в S3?

Вот моя попытка сделать это, она не работает: - (

# write the bucketed data into S3
df.write.bucketBy(10, 'account_id').saveAsTable('test_table', format='parquet', mode='overwrite',path='s3a://path/aaa')

# read the bucketed data from S3
df1 = spark.read.option('mergeSchema', 'false').parquet('s3://path/aaa')
df1.registerTempTable('aaa')

spark.sql('DESC FORMATTED test_table') # result: Bucket Columns [`account_id`]
spark.sql('DESC FORMATTED aaa')  # this DF is not bucketed :-(

спасибо!

искра - сохранить DataFrame в пакетном виде в S3 (паркет)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

искра - сохранить DataFrame в пакетном виде в S3 (паркет)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы