Я хочу объединить все несколько файлов из каждого раздела, написанного в spark, без использования переразбиения и объединения и использования maxrecordperfile - PullRequest
1 голос
/ 05 июля 2019

Привет! Я использую приведенную ниже команду в pyspark, чтобы записать свою таблицу с одним файлом на раздел, поэтому я дал максимальную запись 25 миль, тогда как в моем ежедневном разделе будет только 15 миль, поэтому он всегда должен создавать 1 файл на раздел, но в моем случае он создает около 20 файлов в каждом разделе, однако ранее он записывал 200 файлов из-за перестановки.

Я уже пробовал перераспределение и объединение (1), но зависает из-за огромных перетасовок.

final_dedup_df.write.option(“maxRecordsPerFile”, 25000000).format(“parquet”).mode(‘append’).insertInto(“%s.%s”%(db_name,table_name), overwrite=True)

вывод:

113.7 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00009-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
13.6 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00019-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
113.2 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00029-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
113.0 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00047-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
112.9 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00065-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
112.7 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00083-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
112.7 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00101-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
112.7 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00119-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
112.7 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00137-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
112.7 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00155-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
112.6 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00173-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
112.6 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00191-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
112.6 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00209-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
75.8 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00224-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
62.5 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00235-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
62.5 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00245-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
62.4 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00255-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
62.3 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00265-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
62.3 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00275-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
62.3 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00285-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
62.3 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00295-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
62.1 M hdfs://labshdpds2/apps/hive/warehouse/dwh_staging.db/dwd_trd_aqc_trade_di/updated_dt=2019-07-01/part-00305-dcab0779-d49a-4dd7-b8fd-76001b02bc04.c000
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...