aws glue s3 target - создание разделов из 20 файлов - PullRequest
0 голосов
/ 28 сентября 2018

По умолчанию, когда я читаю две три записи также из источника базы данных динамо, и целью является s3, даже тогда в нем создается 20 файлов разделов, и только две имеют данные, а другие - пустые файлы.

Как можномы контролируем создание этого файла?

Или ограничиваем количество записей в каждом файле?

1 Ответ

0 голосов
/ 15 ноября 2018

Вы можете контролировать количество файлов, изменяя количество разделов.Сначала вам нужно изменить DynamicFrame для запуска DataFrame, затем изменить количество разделов и, наконец, вернуться к DynamicFrame:

dataframe = DynamicFrame.toDF(applymapping3).repartition(2) #where 2 is the number of files/partitions.
dynamicframe = DynamicFrame.fromDF(dataframe, glueContext, "dynamicframe")

Аналогичным образом, если вы хотите ограничить количество записей, вы можетесделать что-то вроде:

n_partitions = int(math.ceil(dataframe.count() / float(file_size))) #where file_size can be 500 records.
dataframe1 = DynamicFrame.toDF(dataframe).repartition(n_partitions)
...