Spark 2.0+: spark.sql.files.maxPartitionBytes не работает? - PullRequest
1 голос
/ 04 ноября 2019

Насколько я понимаю, spark.sql.files.maxPartitionBytes используется для управления размером раздела, когда spark читает данные из hdfs. Однако я использовал spark sql для чтения данных за конкретную дату в формате hdf. Он содержит 768 файлов. Самый большой файл - 4,7 ГБ. Самый маленький файл - 17,8 МБ.

, размер блока hdfs - 128 МБ. значение spark.sql.files.maxPartitionBytes составляет 128 МБ.

Я ожидал, что spark разделит большой файл на несколько разделов и сделает каждый раздел размером не более 128 МБ. Однако, это не работает так.

Я знаю, что мы можем использовать repartition (), но это дорогостоящая операция.

enter image description here

...