Я работаю над проектом, в котором происходит переход с SAS на AWS EMR с S3.К тому времени, когда я был в проекте, они уже использовали какой-то парсер и преобразовали коды SAS DI ETL в сценарии pyspark.Когда я проверил код, мне пришлось вручную удалить так много вещей, которые не имеют отношения к коду. Теперь в большинстве кодов они имеют следующую строку:
hive.exec.max.dynamic.partitions=20000
hive.exec.max.dynamic.partitions.pernode=20000
Я знаю, что улей.exec.max.dynamic.partitions имеет значение по умолчанию 1000, а hive.exec.max.dynamic.partitions.per.node имеет значение по умолчанию 250. И я также знаю, что при создании большого количества небольших разделов, тогда это повлияет на емкость памяти namenode / masternode.
Теперь, что мне нужно знать, как мы можем точно рассчитать максимальный предел этих двух значений свойств?