Каковы параметры SparkQL для com.amazonaws.services.glue.writeDynamicFrame? - PullRequest
0 голосов
/ 30 июня 2018

В этой документации: https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html#aws-glue-programming-etl-format-parquet

в нем упоминается: «любые параметры, принимаемые базовым кодом SparkSQL, могут быть переданы ему с помощью параметра карты connection_options.»

Однако как я могу узнать, что это за опции? Нет четкого соответствия между кодом Glue и кодом SparkQL.

(В частности, я хочу выяснить, как контролировать размер получаемых файлов паркета)

1 Ответ

0 голосов
/ 05 июля 2018

Опции SparkSQL для различных источников данных можно найти в документации DataFrameWriter Scala или pyspark docs). Источник данных для записи parquet, кажется, принимает только параметр compression. Для опций SparkSQL при чтении данных загляните в класс DataFrameReader.

Чтобы контролировать размер ваших выходных файлов, вы должны играть с параллелизмом - как прокомментировал @Yuri Bondaruk - используя, например, функцию coalesc.

...