Question

В этой документации: https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html#aws-glue-programming-etl-format-parquet

в нем упоминается: «любые параметры, принимаемые базовым кодом SparkSQL, могут быть переданы ему с помощью параметра карты connection_options.»

Однако как я могу узнать, что это за опции? Нет четкого соответствия между кодом Glue и кодом SparkQL.

(В частности, я хочу выяснить, как контролировать размер получаемых файлов паркета)

botchniaque · Answer 1 · 05 июля 2018

Опции SparkSQL для различных источников данных можно найти в документации DataFrameWriter (в Scala или pyspark docs). Источник данных для записи parquet, кажется, принимает только параметр compression. Для опций SparkSQL при чтении данных загляните в класс DataFrameReader.

Чтобы контролировать размер ваших выходных файлов, вы должны играть с параллелизмом - как прокомментировал @Yuri Bondaruk - используя, например, функцию coalesc.

Каковы параметры SparkQL для com.amazonaws.services.glue.writeDynamicFrame?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каковы параметры SparkQL для com.amazonaws.services.glue.writeDynamicFrame?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы